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内 容 提 要 


在 学 习 和 研究 机 器 学 习 的 时 候 ， 面 临 令 人 眼花 绑 乱 的 算法 ， 机 器 学 习 新 手 往往 会 不 知 
所 措 。 本 书 从 算法 和 Python 语言 实现 的 角度 ， 帮 助 读者 认识 机 器 学 习 。 

本 书 专注 于 两 类 核心 的 “算法 族 ”， 即 惩罚 线性 回归 和 集成 方法 ， 并 通过 代码 实 侈 来 
展示 所 讨论 的 算法 的 使 用 原则 。 全 书 共 分 为 7 章 ， 详 细 讨论 了 预测 模型 的 两 类 核心 算法 、 
预测 模型 的 构建 、 惩 罚 线性 回归 和 集成 方法 的 具体 应 用 和 实现 。 

本 书 主要 针对 想 提 高 机 器 学 习 技能 的 Python 开发 人 员 ， 帮 助 他 们 解决 某 一 特定 的 项 


目 或 是 提升 相关 的 技能 。 

















致 我 的 孩子 一 Scott, Seth 和 Cayley, 他 们 那 如 花 的 生命 带 给 我 世界 上 最 美妙 的 时 光 。 

致 我 亲密 的 朋友 一 一 David 和 Ron， 他 们 给 我 带 来 了 无 私 慷慨 、 坚 定 不 移 的 友谊 。 

致 我 在 加 州 山 景 城 黑客 道场 的 朋友 和 同事 ， 他 们 给 我 带 来 了 技术 挑战 以 及 机 敏 的 应 答 。 

致 我 的 攀岩 伙伴 。 正 如 一 个 伙伴 凯瑟琳 所 说 通过 攀岩 可 以 交 上 最 好 的 朋友 ， 因 为 “他 
们 见证 过 因 恶 惧 而 僵硬 的 面 庇 ， 见 证 过 相互 鼓励 挽 挫 ， 见 证 过 攀登 成 功 后 的 喜悦 ”。 
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Michael Bowles 拥有 机 械 工程 学 士 和 硕士 学 位 、 仪 器 仪表 博士 学 位 以 及 MBA 学 位 。 
他 的 履历 涉及 学 术 界 、 工 业界 以 及 商业 界 。 他 目前 在 一 家 初创 公司 工作 ， 其 中 机 器 学 习 技 
术 至 关 重 要 。 他 是 多 个 管理 团队 的 成 员 、 咨 询 师 以 及 顾问 。 他 也 曾经 在 加 州 山 景 城 的 黑客 
道场 、 创 业 公司 孵 化 器 和 办 公 场 所 教授 机 器 学 习 课程 

他 出 生 于 俄 克 拉 和 荷 马 州 并 在 那里 获得 学 士 和 硕士 学 位 。 在 东南 亚 待 了 一 段 时 间 后 ， 他 
前 往 剑 桥 攻 读 博 士 学 位 ， 毕 业 后 任职 于 MIT 的 Charles Stark Draper 实验 室 ”。 之 后 他 离开 
波士顿 前 往 南 加 州 的 休 斯 飞机 公司 开发 通信 卫星 。 在 UCLA 获得 MBA 学 位 后 ， 他 前 往 
旧金山 的 湾 区 工作 。 作 为 创始 人 以 及 CEO， 他 目前 经 营 两 家 公司 ， 这 两 家 公司 都 已 获 风 
险 投 资 。 

他 目前 仍然 积极 参与 技术 以 及 创业 相关 的 工作 。 近 期 项 目 包 括 使 用 机 器 学 习 技术 进行 
自动 交易 ， 基 于 基因 信息 进行 生物 预测 ， 使 用 自然 语言 处 理 技术 进行 网 站 优化 ， 利 用 人 
口 统计 学 及 实验 室 数据 预测 医疗 效果 ， 在 机 器 学 习 和 大 数据 相关 领域 的 公司 里 尽心 尽责 。 
可 以 通过 www.mbowles.com 联系 到 他 。 

























































































© Charles Stark Draper 是 一 名 美国 科学 家 和 工程 师 ， 被 称 为 “惯性 导航 之 父 ”。 他 是 MIT 仪器 实验 室 的 创始 人 ， 后 来 
此 实验 室 用 其 名 来 命名 ， 此 实验 室 设计 了 阿波 罗 登 月 计划 中 的 阿波 罗 导 航 计算 机 。 





技术 编辑 简介 


Daniel Posner 拥有 经 济 学 学 士 以 及 硕士 学 位 , 在 波士顿 大 学 完成 生物 统计 学 博士 学 位 。 
他 曾 为 医药 生物 领域 的 公司 以 及 帕 罗 奥 图 退伍 军人 事务 部 医院 的 研究 人 员 提 供 统 计 学 方 
面 的 咨询 。 

Daniel 和 本 书 作者 就 书 中 相关 主题 有 过 广泛 的 合作 。 他 们 曾经 一 起 撰写 过 开发 Web 
级 梯度 提升 算法 的 项 目 申请 书 。 最 近 ， 他 们 合作 利用 随机 森林 和 样 条 基 扩 展 技 术 解 决 药物 
研制 过 程 中 的 关键 变量 识别 问题 ， 其 目标 是 提升 预测 效果 以 减少 试验 所 需 样本 规模 。 
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从 数据 中 提取 有 助 于 决策 的 信息 正在 改变 着 现代 商业 的 组 织 ， 同 时 也 对 软件 开发 人 员 
产生 了 直接 的 影响 。 一 方面 是 对 新 的 软件 开发 技能 的 需求 ， 市 场 分 析 师 预计 到 2018 年 对 
有 具有 高 级 统计 和 机 器 学 习 技 术 的 人 才 需 求 缺 口 将 达 140000 ~ 190000 A. XIRA ER 
技能 的 人 员 来 说 意味 着 丰厚 的 薪水 和 可 供 选 择 的 多 种 有 趣 的 项 目 。 另 一 方面 对 开发 人 员 的 
影响 就 是 逐步 出 现 了 统计 和 机 器 学 习 相关 的 核心 工具 ， 这 减轻 了 开发 人 员 的 负担 。 当 他 们 
尝试 新 的 算法 时 ， 不 需要 重复 发 明 “ 轮 子 "。 在 所 有 通用 计算 机 语言 中 ，Python 的 开发 人 
员 已 经 站 在 了 最 前 沿 ， 他 们 已 开发 了 当前 最 先进 的 机 器 学 习 工 具 包 ,但 从 拥有 这 些 工 具 包 
到 如 何 有 效 地 使 用 它们 仍然 存在 一 定 的 距离 。 

开发 人 员 可 以 通过 在 线 课程 .阅读 质量 上 乘 的 书籍 等 方式 来 获得 机 器 学 习 的 相关 知识 。 
它们 通常 都 对 机 器 学 习 的 算法 、 应 用 实例 给 出 了 精彩 的 阐述 , 但 是 因为 当前 算法 如 此 之 多 ， 
以 至 于 很 难 在 一 门 课 程 或 一 本 书 中 覆盖 全 部 算法 的 相关 细节 。 

这 给 实践 者 带 来 了 困难 。 当 面临 众多 算法 时 ， 机 器 学 习 新 手 可 能 需要 多 次 尝试 才能 做 出 决 
定 ， 这 往往 需要 开发 人 员 来 填补 从 问题 提炼 到 最 终 问题 解决 之 间 的 所 有 算法 使 用 方便 的 细节 。 

本 书 符 试 填补 这 一 鸿沟 ， 所 采用 的 方法 就 是 只 集中 于 两 类 核心 的 “算法 族 ”"， 这 两 类 
算法 族 已 在 广泛 的 应 用 领域 中 证 明了 其 最 佳 的 性 能 。 此 论断 的 证 据 如 下 : 这 两 类 算法 在 
众多 机 器 学 习 算 法 竞争 考 中 已 获得 支配 性 地 位 ， 新 开发 的 机 器 学 习 工 具 包 都 会 率先 支持 此 
两 类 算法 ， 以 及 研究 工作 给 出 的 性 能 对 比 结论 〈 见 第 1 章 )。 重 点 关注 这 两 类 算法 使 我 们 
可 以 更 详细 地 介绍 算法 的 使 用 原则 ， 并 通过 一 系列 的 示例 细节 来 展示 针对 不 同 问题 如 何 使 
用 这 些 算 法 。 

本 书 主要 通过 代码 实例 来 展示 所 讨论 的 算法 的 使 用 原则 。 以 我 在 加 州 山 景 城 的 黑客 道 
场 (Hacker Dojo) 授课 的 经 验 来 看 ， 我 发 现 开 发 人 员 更 愿意 通过 直接 看 代码 示例 来 了 解 
算法 原理 ， 而 不 是 通过 数学 公式 推导 。 

本 书 使 用 Python 语言 ， 因 为 它 能 提供 将 功能 和 专业 性 良好 结合 的 机 器 学 习 算 法 包 。 
Python 是 一 种 经 常 使 用 的 计算 机 语言 ， 以 产生 精炼 、 可 读 性 代码 而 著称 。 这 导致 目前 已 
有 相当 数量 的 业界 旗舰 公司 采用 Python 语言 进行 原型 系统 开发 和 部 署 。Python 语言 开发 
人 员 获 得 了 广泛 的 支持 , 包括 大 量 的 同业 开发 人 员 组 成 的 社区 、 各 种 开发 工具 、 扩 展 库 等 等 。 
Python 广泛 应 用 于 企业 级 应 用 和 科学 研究 领域 。 它 有 相当 数量 的 工具 包 文 持 计 算 密 集 型 
应 用 ， 如 机 器 学 习 。 它 也 收集 了 当前 机 器 学 习 领 域 的 代表 性 算法 (这 样 就 可 以 省 去 重复 性 
劳动 )。Python 相 比 专门 的 统计 语言 如 及 或 SAS (Statistical Analysis System) 是 一 门 更 通 
用 的 语言 ， 它 的 机 器 学 习 算 法 包 吸 收 了 当前 一 流 的 算法 ， 并 且 在 一 直 扩充 。 
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本 书 的 目标 读者 


本 书 主要 面向 想 提高 机 器 学 习 技 能 的 Python 开发 人 员 ， 不 管 是 针对 某 一 特定 的 项 目 ， 
还 是 只 想 提升 相关 技能 。 开 发 人 员 很 可 能 在 工作 中 遇 到 新 问题 需要 使 用 机 器 学 习 的 方法 来 
解决 。 当 今 机 器 学 习 的 应 用 领域 如 此 之 广 ， 使 其 已 成 为 简历 中 一 项 十 分 有 用 的 技能 。 

本 书 为 Python 开发 人 员 提 供 如 下 内 容 : 

机 器 学 习 所 解决 的 基本 问题 的 描述 ， 

当前 几 种 最 先进 的 算法 ， 

这 些 算法 的 应 用 原则 ， 

一 个 机 器 学 习 系 统 的 选 型 、 设 计 和 评估 的 流程 ; 
流程 、 算 法 的 示例 ， 

可 进一步 修改 扩展 的 代码 。 

为 了 能 够 顺利 地 理解 这 本 书 ， 读 者 所 需 的 背景 知识 包括 : 了 解 编程 、 能 够 读 写 代码 。 
因为 本 书 的 代码 示例 、 库 、 包 都 是 Python 语言 的 , 所 以 本 书 主要 适用 于 Python FRAR. 
本 书 通过 运行 算法 的 核心 代码 来 展示 算法 的 使 用 原则 ， 然 后 使 用 含有 此 算法 的 工具 包 来 
展示 如 何 应 用 此 算法 来 解决 问题 。 开 发 人 员 通 过 源 代 码 可 以 获得 对 算法 的 直观 感受 ， 就 
像 其 他 人 通过 数学 公式 的 推导 来 掌握 算法 。 一 旦 掌握 了 算法 的 核心 原理 ， 应 用 示例 就 
直接 使 用 Python 工具 包 ， 这 些 工 具 包 都 包含 了 能 够 有 效 使 用 这 些 算 法 必需 的 辅助 模块 
(如 错误 检测 、 输 入 输出 处 理 、 模 型 所 需 数据 结构 的 处 理 、 基 于 训练 模型 的 预测 方法 的 
处 理 ， 等 等 )。 

除了 编程 背景 ， 懂 得 相关 数学 、 统 计 的 知识 将 有 助 于 掌握 本 书 的 内 容 。 相 关 数 学 知识 
包括 大 学 本 科 水 平 的 微分 学 (知道 如 何 求 导 ， 少 量 线性 代数 知识 )、 和 矩阵 符号 的 意义 、 先 
阵 乘 、 求 逆 和 矩阵。 这 些 知 识 主要 是 帮助 理解 一 些 算 法 中 的 求 导 部 分 ， 很 多 情况 下 就 是 一 个 
简单 函数 的 求 导 或 基本 的 矩阵 操作 。 能 够 理解 概念 层面 上 的 数学 计算 将 有 助 于 对 算法 的 理 
解 。 明 白 推 导 各 步 的 由 来 有 助 于 理解 算法 的 强项 和 弱项 , 也 帮助 读者 面 对 具 体 的 问题 时 ， 
决定 哪个 算法 是 最 佳 选择 。 

本 书 也 用 到 了 一 些 概率 和 统计 知识 。 对 这 方面 的 要 求 包括 熟悉 大 学 本 科 水 平 的 概率 知识 和 
概念 ， 如 实数 序列 的 均值 、 方 差 和 相关 系数 。 当 然 即 使 这 些 知 识 对 读者 来 说 有 些 陌生 ， 也 不 会 
影响 读者 对 代码 的 理解 。 

本 书 涵盖 了 机 器 学 习 算 法 的 两 大 类 ， 惩罚 线性 回归 (penalized linear regression)， 如 
岭 回 归 算 法 (ridge), Lasso 算法 ;集成 方法 (ensemble methods), 如 随机 森林 算法 (random 
forests), PREES (gradient boosting)。 上 述 两 大 类 算法 有 一 些 变 体 ， 都 可 以 解决 回 
归 和 分 类 的 问题 〈 在 本 书 开始 部 分 将 会 介绍 分 类 和 回归 的 区 别 )。 
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如 果 读 者 已 熟悉 机 器 学 习 并 只 对 其 中 的 一 类 算法 感 兴趣 ， 可 以 直接 跳 到 相关 的 二 章 。 
每 类 算法 由 两 章 组 成 ， 一 章 介绍 基本 原理 ， 另 外 一 章 介绍 针对 不 同类 型 问题 的 用 法 。 第 
罚 线性 回归 由 下 列 两 章 组 成 : 第 4 章 “ 繁 罚 线性 回归 模型 ”和 第 5 章 “ 利 用 第 罚 线性 回 
归 方 法 来 构建 预测 模型 ， 集 成 方法 由 下 列 两 章 组 成 : 第 6 章 “ 集 成 方法 ”和 第 7 章 “ 用 
Python 构建 集成 模型 "。 快 速 浏览 第 2 章 “ 通 过 理解 数据 来 了 解 问题 ”将 有 助 于 理解 算法 
应 用 章节 中 的 问题 。 刚 刚 进入 机 器 学 习 领 域 准 备 从 头 到 尾 通读 的 读者 可 以 把 第 2 章 留 到 阅 
读 那些 算法 应 用 章节 前 。 


本 书包 含 的 内 容 

如 上 所 述 ， 本 书 涵盖 两 大 类 算法 ， 这 些 算法 近期 都 获得 了 发 展 ， 并 将 仍然 获得 持续 性 
研究 ， 它 们 都 起 源 于 早期 的 技术 ， 但 已 使 这 些 早期 技术 黯然 失色 。 

惩罚 线性 回归 代表 了 对 最 小 二 乘法 回归 方法 (least squares regression) 的 相对 较 新 的 
改善 和 提高 。 签 罚 线 性 回归 具有 的 几 个 特征 使 其 成 为 预测 分 析 的 首选 。 惩 罚 线 性 回归 引入 
了 一 个 可 调 参 数 ， 使 最 终 的 模型 在 过 拟 合 与 从 拟 合 之 间 达 到 了 平衡 。 它 还 提供 不 同 的 输 
入 特征 对 预测 结果 的 相对 贡献 的 信息 。 上 述 这 些 特征 对 于 构建 预测 模型 都 是 十 分 重要 的 。 
而 且 ， 对 于 某 些 问题 惩罚 线性 回归 可 以 产生 最 佳 的 预测 性 能 ， 特 别 是 对 于 欠 定 的 问题 以 
及 具有 很 多 输入 参数 的 问题 ， 如 基因 领域 、 文 本 控 气 等。 进一步， 坐标 下 降 法 (coordinate 
descent methods) 等 新 方法 可 以 使 惩罚 线性 回归 模型 训练 过 程 运 行 得 更 快 。 

为 了 帮助 读者 更 好 地 理解 惩罚 线性 回归 ， 本 书 也 概要 介绍 了 线性 回归 及 其 扩展 ， 如 逐 
步 回归 (stepwise regression) ， 主 要 是 希望 能 够 培养 读者 对 算 潜 的 直观 感受 。 
集成 方法 是 目前 最 有 力 的 预测 分 析 工 具 之 一 。 它 可 以 对 特别 复杂 的 行为 进行 建 模 ， 特 
别 是 过 定 的 问题 ,通常 这 些 都 是 与 互联 网 有 关 的 预测 问题 (如 返回 搜索 结果 和 预测 点 击 
率 )。 由 于 集成 方法 的 性 能 ， 许 多 经 验 丰 富 的 数据 科学 家 在 做 第 一 次 尝试 时 都 使 用 该 方法 。 
集成 方法 使 用 相对 简单 ， 而 且 可 以 依据 对 预测 的 贡献 程度 对 输入 特征 排序 。 

目前 集成 方法 与 惩罚 线性 回归 齐头并进 。 然 而 惩罚 线性 回归 是 从 克服 一 般 回 归 方法 的 
局 限 性 进化 而 来 的 ， 集 成 方法 是 从 克服 二 元 决策 树 的 局 限 性 进化 而 来 的 。 因 此 本 书 介绍 集 
成 方法 时 , 也 会 涉及 二 元 决策 树 的 背景 知识 , 因为 集成 方法 继承 了 二 元 决策 树 的 一 些 属性 。 
了 人 解 这 些 将 有 助 于 培养 对 集成 方法 的 直觉 。 


本 书 的 组 织 


本 书 遵循 了 着 手 解决 一 个 预测 问题 的 基本 流程 。 开 始 阶段 包括 对 数据 的 理解 、 如 何 形 
式 化 表示 问题 ， 然 后 开始 尝试 使 用 算法 解决 问题 ， 评 估 其 性 能 。 在 这 个 过 程 中 ， 本 书 将 
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概要 描述 每 一 步 采 用 的 方法 及 其 原因 。 第 1 章 给 出 本 书 涵盖 的 问题 和 所 用 方法 的 完整 描 
述 ， 本 书 使 用 来 自 UC Irvine 数据 仓库 的 数据 集 作为 例子 ， 第 2 章 展 示 了 一 些 数 据 分 析 的 
方法 和 工具 ， 帮 助 读者 对 新 数据 集 具有 一 定 的 洞察 力 。 第 3 章 “预测 模型 的 构建 : 平衡 
性 能 、 复 杂 性 以 及 大 数据 ”主要 介绍 由 上 述 三 者 带 给 预测 分 析 技 术 的 困难 以 及 所 采用 的 技 
AR, 勾勒 了 问题 复杂 度 、 模 型 复杂 度 、 数 据 规模 和 预测 性 能 之 间 的 关系 ， 讨 论 了 过 拟 合 
问题 以 及 如 何 可 靠 地 感知 到 过 拟 合 ， 以 及 不 同类 型 问题 下 的 性 能 评价 标准 。 第 4 章 、 第 5 
章 分 别 介绍 惩罚 线性 回归 的 背景 及 其 应 用 ， 即 如 何 解决 第 2 章 所 述 的 问题 。 第 6 章 、 第 7 
章 分 别 介绍 集成 方法 的 背景 及 其 应 用 。 


























如 何 使 用 本 书 


为 了 运行 书 中 的 代码 示例 ， 需 要 有 Python2.x, SciPy, NumPy, Pandas 和 scikit-learn, 
由 于 交叉 依赖 和 版 本 的 问题 ， 这 些 软件 的 安装 可 以 会 有 些 困难 。 为 了 简化 上 述 软件 安装 
过 程 ， 可 以 使 用 来 自 Continuum Analytics (http://continuum.io/) 的 这 些 包 的 免费 分 发 版 。 
Continuum Analytics 提供 的 Anaconda 软件 包 可 自由 下 载 并 且 包含 Python2.x 在 内 的 运行 
本 书 代 码 所 需 的 全 部 软件 包 。 我 在 Ubuntu 14.04 Linux 发 行 版 上 测试 了 本 书 的 代码 ， 但 是 
没有 在 其 他 的 操作 系统 上 测试 过 。 
































约定 
为 了 便于 对 本 书 的 理解 ， 本 书 通 篇 采用 如 下 的 约定 。 
这 些 方 框 表示 是 与 其 周围 文本 直接 相关 的 不 能 忘记 的 重要 信息 。 





表示 与 当前 讨论 相关 的 注释 、 说 明 、 提 示 和 技巧 。 


源 代码 


人 研究 本 书 示 例 代码 时 ， 可 以 选择 手工 襄 入 这 些 代 码 ， 也 可 以 直接 使 用 随 书 带 的 源 代码 
文件 。 本 书 用 到 的 所 有 源 代 码 都 可 以 从 http://www.wiley.com/go/pythonmachinelearning 中 下 
载 获得 。 在 本 书 代码 片段 旁 会 有 一 个 下 载 的 小 图 标 ， 并 注 明 文件 名 ， 这 样 就 可 以 知道 此 文 
件 在 下 载 的 源 代码 中 ， 并 且 可 以 很 轻松 地 从 下 载 源 代码 中 找到 此 文件 。 读 者 可 访问 上 述 网 
站 , 定位 到 本 书 书 名 (可 以 使 用 搜索 框 或 书 名 列表 ), 在 本 书 详细 介绍 页 面 点 击 “Download 
Code” 和 链接 就 可 以 获得 本 书 的 全 部 源 代码 。 
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Eij 因为 很 多 书 的 书 名 都 非常 相似 ， 最 简单 的 方法 就 是 通过 ISBN 来 查找 ， 本 书 的 ISBN 是 978- 
1-118-96174-2, 





下 载 源 代 码 后 ， 只 需 用 你 惯用 的 解压 缩 工 具 解压 缩 即 可 。 


勘误 表 


我 们 已 尽 最 大 可 能 避免 在 文本 和 代码 中 出 现 错误 。 但 是 没有 人 是 完美 的 ， 同 样 错 误 也 
难免 会 发 生 。 如 果 读 者 在 书 中 发 现 了 错误 ， 诸 如 拼写 错误 、 代 码 错误 等 等 ， 能 及 时 反馈 ， 
我 们 将 非常 感谢 。 提 交 勘 误 表 ， 能 减少 其 他 读者 的 困惑 ， 同 时 也 帮助 我 们 提供 更 高 质量 的 
内 容 。 

获得 本 书 勘误 表 的 方法 : 访问 http://www.wileycom， 通 过 搜索 框 或 书 名 列表 定位 到 
本 书 ， 然 后 进入 本 书 的 详细 介绍 页 面 ， 点 击 “Book Errata” 链 接 ， 可 以 看 到 关于 本 书 所 有 
已 提交 的 并 由 Wiley 出 版 社 编辑 上 传 的 勘误 表 。 
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第 1 章 


关于 预测 的 两 类 核心 算法 





本 书 集中 于 机 器 学 习 领 域 ， 只 关注 那些 最 有 效 和 获得 广泛 使 用 的 算法 。 不 会 提供 关于 
机 器 学 习 技术 领域 的 全 面 综述 。 这 种 全 面 性 的 综述 往往 会 提供 太 多 的 算法 ， 但 是 这 些 算 
法 并 没有 在 从 业者 中 获得 积极 的 应 用 。 

本 书 涉及 的 机 器 学 习 问题 通常 是 指 “ 函 数 逼 近 (function approximation)” ”问题 。 函 数 
通 近 问题 是 有 监督 学 习 (supervised learning) 问题 的 一 个 子 集 。 线 性 回归 和 逻辑 回归 是 解 
决 此 类 上 数 逼近 问题 最 常见 的 算法 。 函 数 逼 近 问题 包含 了 各 种 领域 中 的 分 类 问题 和 回归 
问题 ， 如 文本 分 类 、 搜 索 响应 、 广 告 放 置 、 垃 圾 邮件 过 滤 、 用 户 行为 预测 、 诊 断 等 。 这 
个 列表 几乎 可 以 一 直列 下 去 。 

从 广义 上 说 ， 本 书 涵盖 了 解决 函数 逼近 问题 的 两 类 算法 : 惩罚 线性 回归 和 集成 方法 。 
本 章 将 介绍 这 些 算法 ， 概 述 它们 的 特性 ， 回 顾 算 法 性 能 对 比 研 究 的 结果 ， 以 证 明 这 些 算 
法 始终 如 一 的 高 性 能 。 

然后 本 章 讨论 了 构建 预测 模型 的 过 程 ， 描 述 了 这 里 介绍 的 算法 可 以 解决 的 问题 类 型 ， 
以 及 如 何 灵活 地 构建 问题 模型 ， 选 择 用 于 做 预测 的 特征 。 本 章 也 描述 了 应 用 算法 的 具体 
步 又 ， 包 括 预测 模型 的 构建 、 面 向 部 署 的 性 能 评估 等 。 


1.1 为 什么 这 两 类 算法 如 此 有 用 

有 几 个 因素 造就 了 惩罚 线性 回归 和 集成 方法 成 为 有 用 的 算法 集 。 简 单 地 说 ， 面 对 实践 
中 遇 到 的 绝 大 多 数 预测 分 析 (函数 逼近 ) 问题 ， 这 两 类 算法 都 具有 最 优 或 接近 最 优 的 性 能 。 
这 些 问题 包含 :大 数据 集 、 小 数据 集 、 宽 数据 集 (wide data sets) ”、 高 瘦 数 据 集 (tall skinny 
data sets) 2 、 复 杂 问 题 、 简 单 问题 , 等 等 。Rich Carana 及 其 同事 的 两 篇 论文 为 上 述 论断 提供 了 证 据 。 


1. “An Empirical Comparison of Supervised Learning Algorithms,” Rich Caruana, 
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° 宽 数 据 集 (wide data set) 指 每 次 观测 时 有 大 量 的 测量 项 ， 但 是 观测 次 数 有 限 的 数据 。 若 把 数据 看 成 表格 形式 ， 则 
此 类 数据 集 列 数 很 多 ， 而 行 数 有 限 。 典 型 的 此 类 数据 集 包括 神经 影像 、 基 因 组 以 及 其 他 生物 医学 方面 的 。 一 一 译 者 注 。 
”高 瘦 数 据 集 (tall skinny data set) 指 每 次 观测 时 测量 项 有 限 ， 但 是 进行 了 大 量 的 观测 。 若 把 数据 看 成 表格 的 形式 ， 
则 此 类 数据 集 列 数 有 限 ， 行 数 很 多 。 典 型 的 此 类 数据 集 包括 临床 试验 数据 、 社 交 网 络 数据 等 。 一 一 译 者 注 。 
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2. “An Empirical Evaluation of Supervised Learning in High Dimensions,” Rich Caruana, 
Nikos Karampatziakis 和 Ainur Yessenalina, 
在 这 两 篇 论文 中 ， 作 者 选择 了 各 种 分 类 问题 ， 用 各 种 不 同 的 算法 来 构建 预测 模型 。 然 
后 测试 这 些 预 测 模型 在 测试 数据 中 的 效果 ， 这 些 测试 数据 当然 不 能 应 用 于 模型 的 训练 阶 
段 ， 对 这 些 算 法 根据 性 能 进行 打分 。 第 一 篇 论文 针对 11 个 不 同 的 机 器 学 习 问 题 (二 元 分 
类 问题 ) 对 比 了 9 个 基本 算法 。 所 选 问 题 来 源 广泛 ,包括 人 口 统计 学 ,文本 处 理 , 模 式 识别 、 
物理 学 和 生物 学 。 表 1-1 列 出 了 此 篇 论文 所 用 的 数据 集 ， 所 用 名 字 与 论文 中 的 一 致 。 此 表 
还 展示 了 针对 每 个 数据 集 做 预测 时 使 用 了 多 少 属性 (特征 ) 以 及 正 例 所 占 的 百分比 。 

术语 “ 正 例 ”(positive example) 在 分 类 问题 中 是 指 一 个 实验 (输入 数据 集中 的 一 行 数据 ) 
其 输出 结果 是 正 向 的 《positive)。 例 如 ， 如 果 设 计 的 分 类 器 是 判断 雷达 返回 信号 是 否 表明 
出 现 了 一 架 飞 机 ， 那 么 正 例 则 是 指 在 雷达 视野 内 确实 有 一 架 飞 机 的 那些 结果 。 正 例 这 个 词 
来 源 于 这 样 的 例子 : 两 个 输出 结果 分 别 代表 出 现 或 不 出 现 。 其 他 例子 还 包括 在 医学 检测 
中 某 种 疾病 出 现 或 不 出 现 ， 退 税 中 是 否 存在 欺骗 。 

不 是 所 有 的 分 类 问题 都 处 理 出 现 或 不 出 现 的 问题 。 例 如 通过 计算 机 分 析 一 个 作家 发 表 
的 作品 或 者 其 手写 体 的 样本 来 判断 此 人 的 性 别 : 男性 或 女性 ， 在 这 里 性 别 的 出 现 或 不 出 
现 是 没有 什么 意义 的 。 在 这 些 情况 下 ， 指 定 哪些 为 正 例 、 哪 些 为 负 例 则 有 些 随 意 ， 但 是 一 
且 选 定 ， 在 使 用 中 要 保持 一 致 。 
在 第 1 篇 论文 的 某 些 数据 集中 ， 某 一 类 的 数据 〈 例 子 ) 要 远 多 于 其 他 类 的 数据 (例子 )， 
这 叫 作 非 平 衡 (unbalanced) 。 例 如 ，2 个 数据 集 Letter.pl 和 Letterp2. 都 是 用 于 解决 相似 
的 问题 : 在 多 种 字体 下 正确 地 分 出 大 写字 母 。Letterp1l 的 任务 是 在 标准 字母 的 混合 集中 正 
确 区 分 出 大 写字 母 O，Letter.p2 的 任务 是 将 字母 正确 划分 成 A-M 和 N-2 的 两 类 。 表 1-1 
! 的 “ 正 例 百分比 ”一 栏 反映 了 这 种 数据 非 平 衡 的 差异 性 。 

































































































































































表 1-1 机 器 学 习 算 法 比较 研究 中 问题 的 梗概 

数据 集 名 称 属 性 数 正 例 百分比 
Adult 14 25 
Bact 11 69 
Cod 15 50 
Calhous 9 52 
Cov_Type 54 36 
HS 200 24 
Letter.pl 16 3 
Letter.p2 16 53 
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数据 集 名 称 属 性 数 正 例 百分比 
Medis 63 11 
Mg 124 17 
Slac 59 50 

















K 1-1 还 显示 了 每 个 数据 集 所 使 用 的 属性 〈 特 征 ) 的 数量 。 特 征 就 是 基于 此 进行 预测 的 
变量 。 例 如 ， 预 测 一 架 飞 机 能 否 按 时 到 达 目 的 地 ， 可 能 导入 下 列 属性 (特征 ) : 航空 公司 
的 名 字 、 飞 机 的 制造 商 和 制造 年 份 、 目 的 地 机 场 的 降水 量 和 航线 上 的 风速 与 风向 等 等 。 基 于 
很 多 特征 做 预测 很 可 能 是 一 件 很 难说 清楚 是 福 还 是 祸 的 事情 。 如 果 导 入 的 特征 与 预测 结果 直 
接 相关 ， 那 么 当然 是 一 件 值得 祝福 的 事情 。 但 是 如 果 导 入 的 特征 与 预测 结果 无 关 ， 就 是 一 件 
该 诅 只 的 事情 了 。 那 么 如 何 区 分 这 两 种 属性 (该 祝福 的 属性 、 该 志 听 的 属性 ) 则 需要 数据 
来 说 话 。 第 3 章 将 进行 更 深入 的 讨论 。 

本 书 涵盖 的 算法 与 上 述 论 文中 提 到 的 其 他 算法 的 比较 结果 如 表 1-2 所 示 。 针 对 表 1-1 
列 出 的 问题 ， 表 1-2 列 出 了 性 能 打分 排 前 5 名 的 算法 。 本 书 涵盖 的 算法 脱颖而出 (提升 
决策 树 (Boosted Decision Trees)、 随 机 森林 (Random Forests)、 投 票 决 策 树 (Bagged 
Decision Trees) 和 侵 辑 回归 (Logistic Regression)。 前 3 个 属于 集成 方法 。 在 那 篇 论文 撰 
写 期 间 惩罚 回归 还 没有 获得 很 好 的 发 展 ， 因 此 在 论文 中 没有 对 此 进行 评价 。 逻 辑 回 归 是 属 
于 与 之 相对 比较 接近 的 算法 ， 可 以 用 来 评测 回归 算法 的 性 能 。 对 于 论文 中 的 9 个 算法 各 有 3 
种 数据 规约 方法 ， 所 以 一 共 是 27 种 组 合 。 前 $ 名 大 概 占据 性 能 评分 排名 的 前 20%。 第 1 fT 
针对 Covt 数据 集 的 算法 排名 可 以 看 到 : 提升 决策 树 算法 占 第 1 名 、 第 2 名 ;随机 森林 算法 
占 第 4 名 、 第 5 名 ;投票 决策 树 算法 占 第 3 名 。 出 现在 前 $ 名 但 是 本 书 没有 涵盖 的 算法 在 最 
后 一 列 列 出 (“其 他 ” 列 )。 表 中 列 出 的 算法 包括 : K 最 近邻 (K Nearest Neighbors, KNNs), 
人 工 神 经 网 络 (artificial neural nets, ANNs)、 支 持 向 量 机 (support vector machine, SVMs)。 

































































































































































表 1-2 本 书 涵盖 的 机 器 学 习 算 法 针对 不 同 问题 的 性 能 表现 
算法 提升 决策 树 随机 森林 投票 决策 树 逻辑 回归 其 他 
Covt 1,2 4,5 3 
Adult 1,4 2 3,5 
LTR.P1 1 2 
LTR.P2 1,2 4,5 支持 向 量 机 
MEDIS 1,3 5 人 工 神经 网 络 
SLAC 1, 2,3 4,5 
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算法 提升 决策 树 随机 森林 投票 决策 树 逻辑 回归 其 他 
HS 1,3 人 工 神经 网 络 
MG 2, 4, 5 1,3 
CALHOUS 1,2 5 3,4 
COD 1,2 3,4, 5 
BACT 2,5 1,3,4 

















在 表 1-2 中 ， 逻 和 辑 回归 只 在 一 个 数据 集 下 进入 前 5。 原因 是 针对 表 1-2 中 的 数据 集 规 
模 及 其 所 选 的 特征 ， 不 能 体现 逻辑 回归 的 优势 。 相 对 于 数据 集 的 规模 (每 个 数据 集 有 5 000 
个 示例 ) 采用 的 特征 太 少 了 (最 多 也 就 200 个 ) 。 选 取 的 特征 有 限 ， 因 此 现 有 的 数据 规模 
足以 选 出 一 个 合适 的 预测 模型 ， 而 且 训 练 数据 集 规 模 又 足够 小 ， 使 得 训练 时 间 不 至 太 长 ， 
因此 其 他 算法 也 可 以 获得 很 好 的 结 
正如 将 在 第 3 章 、 第 5 章 和 第 7 章 中 所 看 到 的 那样 ， 当 数据 含有 大 量 的 特征 ， 但 是 没有 足够 多 的 
数据 或 时 间 来 训练 更 复杂 的 集成 方法 模型 时 ， 惩 罚 回归 方法 将 优 于 其 他 算法 。 















































Caruana 等 人 的 最 新 研究 (2008 年 ) 关注 在 特征 数量 增加 的 情况 下 , 上 述 算法 的 性 能 。 
也 就 是 说 这 些 算 法 面 对 大 数据 表现 如 何 。 有 很 多 领域 的 数据 拥有 的 特征 已 远 远 超过 了 第 一 
篇 论文 中 的 数据 集 的 规模 。 例 如 ， 基 因 组 问题 通常 有 数 以 万 计 的 特征 (一 个 基因 对 应 一 个 
特征 )， 文 本 挖掘 问题 通常 有 几 百 万 个 特征 (每 个 唯一 的 词 或 词 对 对 应 一 个 特征 )。 线 性 
回归 和 集成 方法 随 着 特征 增加 的 表现 如 表 1-3 所 示 。 表 1-3 列 出 了 第 2 篇 论文 中 涉及 的 算 
法 的 评分 情况 ， 包 括 算法 针对 每 个 问题 的 性 能 得 分 ， 最 右 列 是 此 算法 针对 所 有 问题 的 平均 
得 分 。 算 法 分 成 2 组， 上 半 部 分 是 本 书 涵盖 的 算法 ， 下 半 部 分 是 其 他 算法 。 表 1-3 中 的 算 
法 依次 为 : BSTDT (Boosted Decision Tress) -提升 决策 树 ; RF (Random Forests) - 随机 森 
林 ; BAGDT (Bagged Decision Trees) -投票 决策 树 ; BSTST (Boosted Stumps) -提升 二 
叉 树 :LR (Logistic Regression) - 逻辑 回归 ;SVM (Support Vector Machines) - 支持 向 量 机 ， 
ANN (Artificial Neural Nets) - 人 工 神经 网 络 ; KNN (Distance Weighted KNN) - 距离 加 权 
K 最 近邻 ; PRC (Voted Perceptrons) - 表决 感知 器 ; NB (Naive Bayes) - 朴素 贝 叶 斯 。NB 
(Naive Bayes) - 朴素 贝 叶 斯 。 

表 1-3 中 的 问题 是 依 其 特征 规模 依次 排列 的 ， 从 761 个 特征 到 最 终 的 685569 个 特征 。 
Zoe CZ) 回归 在 11 个 测试 中 的 5 个 进入 前 3。 而 且 这 些 优异 的 分 数 主 要 和 集中 在 更 
大 规模 的 数据 集 部 分 。 注 意 提升 决策 树 ( 表 1-3 标 为 BSTDT) 和 随机 森林 (K 1-3 标 为 
RF) 其 表现 仍然 接近 最 佳 。 它 们 针对 所 有 问题 的 平均 得 分 排名 第 1、 第 2。 
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本 书 涵盖 的 算法 除了 性 能 外 ， 在 其 他 方面 也 有 优势 。 惩 罚 线性 回归 模型 一 个 重要 优势 
就 是 它 训练 所 需 时 间 。 当 面 对 大 规模 的 数据 时 ， 训 练 所 需 时 间 就 成 为 一 个 需要 考量 的 因 
素 。 某 些 问 题 的 模型 训练 可 能 需要 几 天 到 几 周 , 这 往往 是 不 能 忍受 的 , 特别 是 在 开发 早期 ， 
需要 尽早 在 多 次 迭代 之 后 找到 最 佳 的 方法 。 惩 罚 线性 回归 方法 除了 训练 时 间 特 别 快 ， 部署 
已 训练 好 的 模型 后 进行 预测 的 时 间 也 特别 快 ， 可 用 于 高 速 交易 、 互 联网 广告 的 植 人 等 。 研 
究 表 明 惩罚 线性 回归 在 许多 情况 下 可 以 提供 最 佳 的 答案 ， 在 即使 不 是 最 佳 答 案 的 情况 下 ， 
也 可 以 提供 接近 最 佳 的 答案 。 

而 且 这 些 算法 使 用 十 分 简单 ， 可 调 参数 不 多 ， 都 有 定义 良好 、 结 构 良 好 的 输入 数据 类 
型 。 它 们 可 以 解决 回归 和 分 类 的 问题 。 当 面临 一 个 新 间 题 的 时 候 , 在 1 ~ 2 小 时 内 完成 输 
入 数据 的 处 理 、 训 练 模型 、 输 出 预测 结果 是 司空 见 惯 的 。 

这 些 算法 的 一 个 最 重要 特性 就 是 可 以 明确 地 指出 哪个 输入 变量 (特征 ) 对 预测 结果 最 
重要 。 这 已 经 成 为 机 器 学 习 算 法 一 个 无 比重 要 的 特性 。 在 预测 模型 构建 过 程 中 ， 最 消耗 时 
间 的 一 步 就 是 特征 提取 (feature selection) 或 者 叫 作 特 征 工程 〈feature engineering), Wi 
数据 科学 家 选择 哪些 变量 用 于 预测 结果 的 过 程 。 根 据 对 预测 结果 的 贡献 程度 对 特征 打分 ， 
本 书 涵盖 的 算法 在 特征 提取 过 程 中 可 以 起 到 一 定 的 辅助 作用 ,这样 可 以 抛 掉 一 些 主观 腾 测 
的 东西 ， 让 预测 过 程 更 有 一 定 的 确定 性 。 





















































1.2 ”什么 是 惩罚 回归 方法 


惩罚 线性 回归 方法 是 由 普通 最 小 二 乘法 (ordinary least squares, OLS) 衍生 出 来 的 。 
而 普通 最 小 二 乘法 是 在 大 约 200 年 前 由 高 斯 (Gauss) 和 法 国 数学 家 阿 德里 安 - 马里 勒 
让 德 (Legendre) 提出 的 。 惩 罚 线性 回归 设计 之 初 的 想法 就 是 克服 最 小 二 乘法 的 根本 缺陷 。 
最 小 二 乘法 的 一 个 根本 问题 就 是 有 时 它 会 过 拟 合 。 如 图 1-1 所 示 ， 考 虑 用 最 小 二 乘法 通过 
一 组 点 来 拟 合 一 条 直线 。 这 是 一 个 简单 的 预测 问题 : 给 定 一 个 特征 x， 预 测 目 标 值 y。 例 如 ， 
可 以 是 根据 男人 的 身高 来 预测 其 收入 。 根 据 身高 是 可 以 稍微 预测 男人 的 收入 的 〈 但 是 女人 
不 行 )。 

图 1-1 中 的 点 代表 (男人 的 身高 、 男 人 的 收入 )， 直 线 代表 使 用 最 小 二 乘法 的 预测 结果 。 
在 某 种 意义 上 说 ， 这 条 直线 就 代表 了 在 已 知 男 人 身高 的 情况 下 ， 对 男人 收入 的 最 佳 预 测 
模型 。 现 在 这 个 数据 集 有 6 个 点 。 假 设 这 个 数据 集 只 有 2 个 点 。 想 象 有 一 组 点 ， 就 像 图 1-1 
中 的 点 ， 但 是 你 不 能 获得 全 部 的 点 。 可 能 的 原因 是 要 获得 所 有 这 些 点 的 代价 太 昂 贵 了 ， 就 
像 前 面 提 到 的 基因 组 数据 。 只 要 有 足够 多 的 人 手 ， 就 可 以 分 离 出 犯罪 分 子 的 基因 组 ， 但 主 
要 问题 是 代价 的 原因 ， 你 不 可 能 获得 他 们 的 全 部 基因 序列 。 

以 简单 的 例子 来 模拟 这 个 问题 ， 想 象 只 给 你 提供 当初 6 个 点 中 的 任意 2 个 点 。 那 么 拟 
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合 出 来 的 直线 会 发 生 哪 些 变化 ? 这 将 依赖 于 你 得 到 的 是 哪 2 个 点 。 实 际 看 看 这 些 拟 合 的 效 
果 ， 可 以 从 图 1-1 中 任意 选 出 2 个 点 ， 然 后 想象 穿 过 这 2 个 点 的 直线 。 图 1-2 展示 了 穿 过 
图 1-1 中 2 个 点 的 可 能 的 直线 。 可 以 注意 到 拟 合 出 来 的 直线 依赖 于 这 2 个 点 是 如 何 选择 的 。 








y 轴 - 目 标 值 
y 轴 - 目 标 值 

















x 轴 - 特 征 值 x 轴 - 特 征 值 














1-1 普通 最 小 二 乘法 拟 合 1-2 只 有 2 个 点 的 情况 下 拟 合 的 直线 









































使 用 2 个 点 来 拟 合 一 条 直线 的 主要 问题 是 针对 直线 的 自由 度 (degrees of freedom) ? 
没有 提供 足够 的 数据 。 一 条 直线 有 2 个 自由 度 。 有 2 个 自由 度 意味 着 需要 2 个 独立 的 参数 
才能 唯一 确定 一 条 直线 。 可 以 想象 在 一 个 平面 抓 住 一 条 直线 ， 然 后 在 这 个 平面 上 下 滑动 这 
条 直线 ， 或 者 旋转 它 以 改变 其 斜率 。 与 x 轴 的 交点 和 和 斜率 是 相互 独立 的 ， 它 们 可 以 各 自 改 
变 ， 两 者 结合 在 一 起 确定 了 一 条 直线 。 一 条 直线 的 自由 度 可 以 表示 成 几 种 等 价 的 方式 (RT 
以 表示 成 与 y 轴 的 交点 和 斜率、 直线 上 的 2 个 点 ， 等 等 )。 所 有 这 些 确定 一 条 直线 的 表示 
方法 都 需要 2 个 参数 。 

当 自 由 度 与 点 数 相同 时 ， 预 测 效果 并 不 是 很 好 。 连 接 这 些 点 构成 了 直线 ， 但 是 在 不 同 
点 对 之 间 可 以 形成 大 量 不 同 的 直线 。 对 在 自由 度 与 点 数 相 同 的 情况 下 所 做 的 预测 并 不 能 报 
太 大 的 信心 。 图 1-1 是 6 个 点 拟 合 一 条 直线 (2 个 自由 度 )。 也 就 是 说 6 个 点 对 应 2 SA 
由 度 。 从 大 量 的 人 类 基因 中 找到 可 导致 遗传 基因 的 问题 可 以 阐明 相似 的 道理 。 例 如 要 从 
KA 20000 个 人 类 基因 中 找到 可 导致 遗传 的 基因 , 可 选择 的 基因 越 多 , 需要 的 数据 也 越 多 。 
20000 个 不 同 基因 就 代表 20000 个 自由 度 ， 甚 至 从 20000 个 人 获取 的 数据 都 不 足以 得 到 可 
靠 的 结果 ， 在 很 多 情况 下 ， 一 个 相对 预算 合理 的 研究 项 目 只 能 负担 得 起 大 约 500 个 人 的 
样本 数据 。 在 这 种 情况 下 ， 惩 罚 线性 回归 就 是 最 佳 的 选择 了 。 
惩罚 线性 回归 可 以 减少 自由 度 使 之 与 数据 规模 、 问 题 的 复杂 度 相 匹配 。 对 于 具有 大 
由 度 的 问题 ， 惩 罚 线性 回归 方法 获得 了 广泛 的 应 用 。 在 下 列 问题 中 更 是 得 到 了 偏爱 : 


度 : 统计 学 上 的 自由 度 (degree of freedom, df) 是 指 当 以 样本 的 统计 量 来 估计 总 体 的 参数 时 ， 样 本 中 独立 或 能 
由 变化 的 自 变 量 的 个 数 称 为 该 统计 量 的 自由 度 。 
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基因 问题 ,通常 其 自由 度 (也 就 是 基因 的 数目 ) 是 数 以 万 计 的 ， 文 本 分 类 问题 ， 其 自由 度 可 
以 超过 百 万 。 第 4 章 将 提供 更 多 的 细节 : 这 些 方 法 如 何 工作 、 通 过 示例 代码 说 明 算 法 的 机 制 、 
用 Python 工具 包 实 现 一 个 机 器 学 习 系 统 的 过 程 示例 。 

















1.3 ”什么 是 集成 方法 


本 书 涵盖 的 另 一 类 算法 就 是 集成 方法 (ensemble methods ) 。 集 成 方法 的 基本 思想 是 构 
建 多 个 不 同 的 预测 模型 ， 然 后 将 其 输出 做 某 种 组 合作 为 最 终 的 输出 ， 如 取 平均 值 或 采用 多 
数 人 的 意见 (投票 )。 单 个 预测 模型 叫 作 基 学 习 器 (base learners)。 计 算 学 习 理论 (computation 
learning theory) 的 研究 结果 证 明 只 要 基 学 习 器 比 随机 猜测 稍微 好 些 (如 果 独 立 预测 模型 
的 数目 足够 多 ) ， 那 么 集成 方法 就 可 以 达到 相当 好 的 效果 。 

研究 人 员 注 意 到 某 些 机 器 学 习 算 法 输出 结果 不 稳定 , 这 一 问题 导致 了 集成 方法 的 提出 。 
例如 ， 在 现 有 数据 集 基础 上 增加 新 的 数据 会 导致 最 终 的 预测 模型 或 性 能 突变 。 二 元 决策 树 
和 传统 的 神经 网 络 就 有 这 种 不 稳定 性 。 这 种 不 稳 
定性 会 导致 预测 模型 性 能 的 高 方差 ， 取 多 个 模型 
的 平均 值 可 以 看 作 是 一 种 减少 方差 的 方法 。 技 巧 
在 于 如 何 产生 大 量 的 独立 预测 模型 ， 特 别 是 当 它 
们 都 采用 同样 的 基 学 习 器 时 。 第 6 章 将 深入 讨论 
这 是 如 何 做 到 的 。 方 法 很 巧妙 ， 理 解 其 运作 的 基 
本 原理 也 相对 容易 。 下 面 是 其 概述 。 

集成 方法 为 了 实现 最 广泛 的 应 用 通常 将 二 元 Net 
决策 树 作为 它 的 基 学 习 器 。 二 元 决策 树 通常 如 No 
图 1-3 所 示 。 图 1-3 中 的 二 元 决策 树 以 一 个 实数 
x 作为 最 初 的 输入 ， 然 后 通过 一 系列 二 元 (二 值 ) (1-2) G-) 
决策 来 决定 针对 x 的 最 终 输 出 应 该 是 何 值 。 第 
1 次 决策 是 判断 x 是 否 小 于 5。 如果 回 答 “no”， ee 
则 二 元 决策 树 输 出 值 4， 在 由 决策 的 方 框 下 面 标 
为 “No” 的 分 支 引出 的 圆圈 内 。 每 个 可 能 的 x 值 通过 决策 树 都 会 产生 输出 y。 图 1-4 将 输 
E y 画 为 针对 决策 树 的 输入 x 的 函数 。 

由 此 产生 的 问题 是 : 这 些 比较 值 是 如 何 产生 的 (如 例子 中 的 x<5?)， 输 出 的 值 是 如 何 
确定 的 (图 1-3 决策 树 底部 圆圈 中 的 值 )。 这 些 值 都 来 自 于 基于 输入 数据 的 二 元 决策 树 的 
训练 ,训练 算法 不 难 理解 ,在 第 6 章 会 详细 叙述 ,需要 注意 的 很 重要 的 一 点 是 给 定 输入 数据 ， 
训练 所 得 的 二 元 决策 树 的 这 些 值 都 是 确定 的 。 一 种 获得 不 同 模型 的 方法 是 先 对 训练 数据 随 
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机 取样 ， 然 后 基于 这 些 随机 数据 子 集 进 行 训练 。 这 种 技术 叫 作 投票 [bagging， 来 自 于 自 
稍 许 差异 








举 集 成 算法 (bootstrap aggregating) 的 简化 说 法 ] 。 此 方法 可 以 产生 大 量 的 具 














的 二 元 决策 树 。 这 些 决策 树 的 输出 经 过 平均 或 投票 产生 最 终 的 结果 。 第 6 章 将 描述 此 项 技 








术 的 细节 和 其 他 更 有 力 的 工具 。 
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输入 





图 1-4 二 元 决策 树 示 例 输入 — 输出 图 











14 算法 的 选择 


这 2 类 算法 的 概要 比较 如 表 1-4 所 示 。 惩 罚 线性 回归 的 优势 在 于 训练 速度 非常 快 。 大 
规模 数据 集 的 训练 时 间 可 以 是 小 时 、 天 ， 其 至 是 几 周 。 要 获得 一 个 可 以 部 署 的 解决 方案 往 
往 需 要 进行 多 次 训练 。 过 长 的 训练 时 间 会 影响 大 数据 问题 的 解决 进度 及 其 部 署 。 训 练 所 需 
时 间 当 然 越 短 越 好 ， 因 此 惩罚 线性 回归 因 其 训练 所 需 时 间 短 而 获得 广泛 使 用 就 是 显而易见 
的 了 。 依 赖 于 问题 ， 此 类 算法 相 比 集成 方法 可 能 会 有 一 些 性 能 上 的 劣势 。 第 3 章 将 更 深入 
地 分 析 哪 类 问题 适用 于 惩罚 回归 ， 哪 类 问题 适用 于 集成 方法 。 即 使 在 某 些 情况 下 ， 惩 罚 线 
性 回归 的 性 能 不 如 集成 方法 ， 它 也 可 以 是 建立 一 个 机 器 学 习 系 统 的 有 意义 的 第 一 步 尝 试 。 





























表 1-4 惩罚 线性 回归 与 集成 方法 权衡 比较 
训练 速度 预测 速度 问题 复杂 度 处 理 大 量 特征 
惩罚 线性 回归 十 十 = + 








集成 方法 - 3 + 
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在 系统 开发 的 早期 阶段 ， 为 了 特征 的 选择 、 进 一 步 明确 问题 的 形式 化 描述 ， 训 练 的 过 
程 往往 需要 多 次 迭代 。 决 定 哪些 特征 作为 预测 模型 的 输入 是 需要 考虑 的 。 有 时 这 个 过 程 是 
显而易见 的 ， 但 是 通常 需要 多 次 迭代 之 后 才 逐 渐 显 现 出 来 。 把 能 找到 的 所 有 特征 都 输入 进 
去 通常 不 是 一 个 好 的 解决 方案 。 

试 错 法 是 确定 模型 最 佳 输入 的 典型 方法 。 例 如 ， 如 果 想 预测 网 站 的 用 户 是 否 会 点 击 某 
个 广告 链接 ， 首 先 用 到 用 户 的 人 口 统计 学 信息 。 但 是 结果 可 能 并 不 能 达到 想 要 的 精度 ， 因 
此 尝试 导 和 人 用户 在 此 网 站 过 去 行为 的 信息 : 在 过 去 的 网 站 访问 过 程 中 ， 此 用 户 点 击 过 哪 
些 广告 或 购买 过 哪些 产品 。 增 加 用 户 访问 此 网 站 之 前 的 其 他 网 站 的 相关 信息 也 会 有 些 帮 
助 。 这 些 尝试 都 导致 了 一 系列 的 实验 : 导入 新 的 数据 ， 然 后 看 看 新 的 数据 对 结果 是 否 有 
帮助 。 这 种 迭代 过 程 在 2 个 方面 都 是 很 耗 时 的 : 数据 的 处 理 、 预 测 模型 的 训练 。 惩 罚 线 
性 回归 通常 要 比 集成 方法 快 ， 而 这 种 时 间 上 的 差异 性 是 机 器 学 习 系统 开 发 阶段 需要 考虑 的 
一 个 重要 因素 。 

例如 ， 如 果 训 练 集合 在 GB 级 别 ， 惩 罚 线性 回归 算法 的 训练 时 间 在 30 分 钟 这 个 级 别 ， 
集成 方法 可 能 需要 5 — 6 小 时 。 如 果 特 征 工程 阶段 需要 10 次 迭代 来 选择 最 佳 特征 集合 ， 
则 单单 这 个 阶段 就 会 产生 1 天 对 应 1 周 的 时 间 差 异 。 一 个 有 用 的 技巧 就 是 在 开发 的 早期 
阶段 ， 如 特征 工程 阶段 ， 利 用 惩罚 线性 模型 进行 训练 。 这 给 数据 科学 家 提供 一 个 基本 的 
判断 : 哪些 变量 〈 特 征 ) 是 有 用 的 、 重 要 的 ， 同 时 提供 了 一 个 后 续 与 其 他 算法 性 能 比较 
上 的 基线 。 

除了 可 以 获得 训练 时 间 上 的 收益 ， 惩 罚 线性 方法 产生 预测 结果 也 比 集成 方法 快 得 多 。 
产生 预测 结果 需要 使 用 一 个 训练 好 的 模型 。 对 于 惩罚 线性 回归 ， 训 练 好 的 模型 就 是 一 系列 
实数 : 每 个 实数 对 应 一 个 用 于 做 预测 的 特征 。 所 涉及 的 浮 点 操作 的 次 数 就 是 用 来 做 预测 
的 变量 数 。 对 于 对 时 间 高 度 敏感 的 预测 ， 如 高 速 交 易 、 互 联网 广告 植 人 ， 计 算 时 间 上 的 差 
异 往往 意味 着 鳃 利 还 是 亏损 。 

对 于 一 些 问题 ， 线 性 方法 相 比 集成 方法 可 以 获得 同等 或 更 好 的 性 能 。 一 些 问 题 不 需要 
复杂 的 模型 。 第 3 章 将 详细 讨论 问题 的 复杂 度 ， 数 据 科学 家 的 任务 就 是 如 何平 衡 问题 的 复 
杂 度 、 预 测 模型 的 复杂 度 和 数据 集 规模 ， 以 获得 一 个 最 佳 的 可 部 署 模 型 。 基 本 思想 是 如 果 
问题 不 是 很 复杂 ， 而 且 不 能 获得 足够 多 的 数据 ， 则 线性 方法 比 更 加 复杂 的 集成 方法 可 能 会 
获得 全 面 更 优 的 性 能 。 基 因 组 数据 就 是 此 类 问题 的 典型 代表 。 

一 般 的 直观 感受 是 基因 数据 规模 巨大 。 当 然 以 比特 为 单位 ， 基 因数 据 集 确实 是 非常 庞 
大 的 ， 但 是 如 果 为 了 产生 准确 的 预测 ， 则 其 规模 还 需要 进一步 增加 。 为 了 理解 两 者 之 间 
的 差别 ， 考 虑 下 面 一 个 假想 的 实验 。 假 设 有 2 个 人 ,一 个 人 有 可 遗传 条 件 基因 ， 男 外 一 
个 人 没有 。 如 果 有 这 2 个 人 的 基因 序列 ， 那 么 能 确定 哪个 基因 是 可 遗传 条 件 基因 ? 显然， 
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这 是 不 可 能 的 ， 因 为 这 2 个 人 之 间 有 很 多 基因 是 不 同 的 。 那 么 需要 多 少 人 才能 完成 这 个 任 
务 呢 ? 至 少 人 数 要 与 基因 数 相 等 ， 如 果 考 虑 到 噪声 ， 就 需要 更 多 的 人 了 。 人 类 大 约 有 20000 
个 基因 ， 因 计算 方法 不 同 而 略 有 差异 。 获 得 每 条 数据 大 约 需要 1000 美元 ， 要 获得 足够 多 
的 数据 以 完美 地 解决 此 问题 至 少 需要 2000 万 美元 。 
就 像 本 章 前 面 讨 论 的 那样 ， 这 种 情况 与 用 2 个 点 来 拟 合 一 条 直线 非常 相似 。 模 型 的 自 
由 度 要 比 数 据点 少 。 数 据 集 规 模 通 常 需要 是 自由 度 的 倍数 关系 。 因 为 数据 集 的 规模 是 固定 
的 ， 所 以 需要 调整 模型 的 自由 度 。 惩 罚 线性 回归 的 相关 章节 将 介绍 惩罚 线性 回归 如 何 支 持 
这 种 调整 以 及 依 此 如 何 达到 最 优 的 性 能 。 
本 书 涵盖 的 两 大 类 算法 的 分 类 与 作者 和 Jeremy Howard 在 2012 Ẹ O’ Reilly Strata 国际 会 议 
中 提出 的 完全 吻合 。Jeremy 负责 介绍 集成 方法 ， 作 者 负责 介绍 接受 惩罚 线性 回归 ， 并 就 两 者 
的 优 缺点 进行 了 有 趣 的 讨论 。 事 实 上 ， 这 两 类 算法 占 当 前 构建 的 预测 模型 的 80%， 这 不 是 没有 
原因 的 。 







































































第 3 章 将 更 详细 地 讨论 为 什么 一 个 算法 或 者 另 一 个 算法 是 一 个 问题 的 更 好 选择 。 这 与 
问题 的 复杂 度 、 算 法 内 在 固有 的 自由 度 有 关 。 线 性 模型 倾向 于 训练 速度 快 ， 并 且 经 常 能 够 
提供 与 非 线性 集成 方法 相当 的 性 能 ,特别 是 当 能 获取 的 数据 受 限 时 。 因 为 它们 训练 时 间 短 ， 
在 早期 特征 选取 阶段 训练 线性 模型 是 很 方便 的 ， 然 后 可 以 据 此 大 致 估计 和 针对 特定 问题 可 以 
达到 的 性 能 。 线 性 模型 可 以 提供 关于 特征 对 预测 的 相关 信息 ， 可 以 辅助 特征 选取 阶段 的 工 
作 。 在 有 充足 数据 的 情况 下 ， 集 成 方法 通常 能 提供 更 好 的 性 能 ， 也 可 以 提供 相对 间接 的 关 
于 结果 的 页 献 的 评估 。 



































1.5 构建 预测 模型 的 流程 


使 用 机 器 学 习 需 要 几 项 不 同 的 技能 。 一 项 就 是 编程 技能 ， 本 书 不 会 把 重点 放 在 这 。 
他 的 技能 用 于 获得 合适 的 模型 进行 训练 和 部 署 。 这 些 其 他 技能 将 是 本 书 重点 关注 的 。 那 
这 些 其 他 技能 包括 哪些 内 容 ? 

最 初 ， 问 题 是 用 多 少 有 些 模 糊 的 日 常 语言 来 描述 的 ， 如 “给 网 站 访问 者 展示 他 们 很 可 
能 点 击 的 链接 ”"。 将 其 转换 为 一 个 实用 的 系统 需要 用 具体 的 数学 语言 对 问题 进行 重 述 ， 找 
到 预测 所 需 的 数据 集 ， 然 后 训练 预测 模型 ， 预 测 网 站 访问 者 对 出 现 的 链接 点 击 的 可 能 性 。 
对 问题 用 数学 语言 进行 重 叙 ， 其 中 就 包含 了 对 可 获得 的 数据 资源 中 抽取 何 种 特征 以 及 对 这 
些 特征 如 何 构建 的 假设 。 

当 遇 到 一 个 新 间 题 时 ， 应 该 如 何 着 手 ? 首先 ， 需 要 浏览 可 获得 的 数据 ， 确 定 哪 类 数据 
可 能 用 于 预测 。 浏览 ”的 意思 是 对 数据 进行 各 种 统计 意义 上 的 检测 分 析 ， 以 获得 直观 感 
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受 这 些 数据 透露 了 什么 信息 ， 这 些 信息 又 与 要 预测 的 有 怎样 的 关系 。 在 某 种 程度 上 ， 直 觉 
可 以 指导 你 做 些 工作 ， 也 可 以 量化 结果 ， 测 试 潜在 的 这 些 预测 特征 与 结果 的 相关 性 。 第 2 
章 将 详细 介绍 对 数据 集 测 试 分 析 的 过 程 ， 本 书 余 下 部 分 所 述 的 算法 及 其 比较 会 用 到 这 些 数 
据 集 。 

假设 通过 某 种 方法 ， 选 择 了 一 组 特征 ， 开 始 训练 机 器 学 习 算法 。 这 将 产生 一 个 训练 好 
的 模型 ， 然 后 是 估计 它 的 性 能 。 下 一 步 ， 可 能 会 考虑 对 特征 集 进行 调整 ， 包 括 增加 新 的 
特征 ， 删 除 已 证 明 没 什么 帮助 的 特征 ， 或 者 选择 另外 一 种 类 型 的 训练 目标 (也 叫 作 目 标 
函数 ) ， 通 过 上 述 调整 看 看 能 否 提高 性 能 。 可 以 反复 调整 设计 决策 来 提高 性 能 。 可 能 会 把 
导致 性 能 比较 差 的 数据 单独 提出 来 ， 然 后 尝试 是 否 可 以 从 中 发 现 背后 的 规律 。 这 可 以 导致 
添加 新 的 特征 到 预测 模型 中 ， 也 可 以 把 数据 集 分 成 不 同 的 部 分 分 别 考虑 ， 分 别 建立 不 同 的 
预测 模型 。 

本 书 的 目的 是 让 你 熟悉 上 述 处 理 过 程 ， 以 后 遇 到 新 问题 就 可 以 独立 完成 上 述 步骤 。 当 
重 述 问题 、 提 取 特 征 、 训 练 算法 、 评 估算 法 时 , 需要 熟悉 不 同 算法 所 要 求 的 输入 数据 结构 。 
此 过 程 通常 包括 如 下 步骤 。 

(1) 提取 或 组 合 预测 所 需 的 特征 。 

(2) 设 定 训练 目标 。 
(3) 训练 模型 。 
(4) 评估 模型 在 测试 数据 上 的 性 能 表现 。 


p3- 在 完成 第 一 遍 过 程 后 ， 可 以 通过 选择 不 同 的 特征 集 、 不 同 的 目标 等 手段 来 提高 预测 的 性 能 。 
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机 器 学 习 要 求 不 仅仅 是 熟悉 一 些 工 具 包 。 它 是 开发 一 个 可 以 实际 部 署 的 模型 的 全 部 过 
程 ， 包 括 对 机 器 学 习 算 法 的 理解 和 实际 的 操作 。 本 书 的 目标 就 是 在 这 方面 提供 帮助 。 本 
书 假设 读者 具有 大 学 本 科 的 基础 数学 知识 、 理 解 基本 的 概率 和 统计 知识 ， 但 是 本 书 不 预 
设 读者 具有 机 器 学 习 的 背景 知识 。 同 时 本 书 倾向 于 给 读者 直接 提供 针对 广泛 问题 具有 最 
佳 性 能 的 算法 ， 而 不 需要 通 览 所 有 机 器 学 习 相 关 的 算法 或 方法 。 有 相当 数量 的 算法 很 有 
趣 ， 但 是 因为 各 种 原因 并 没有 获得 广泛 使 用 。 例 如 ， 这 些 算法 可 能 扩展 性 不 好 ， 不 能 对 
内 部 的 运行 机 理 提供 直观 的 解释 ， 或 者 很 难 使 用 ， 等 等 。 例 如 ， 众 所 周知 随机 森林 算法 
(本 书 将 会 介绍 ) 在 在 线 机 器 学 习 算 法 竞争 中 透 遥 领先 。 通 常 有 非常 切实 的 原因 导致 某 些 
算法 被 经 常 使 用 ， 本 书 的 目标 就 是 在 你 通读 完 本 书后 对 这 方面 具有 充分 了 解 。 


1.5.1 构造 一 个 机 器 学 习 问 题 
参加 机 器 学 习 算法 竞赛 可 以 看 作 是 解决 真实 机 器 学 习 问题 的 一 个 仿真 。 首 先 机 器 学 习 
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算法 竞赛 会 提供 一 个 简短 的 描述 例如， 宣称 一 个 保险 公司 想 基于 现 有 机 动车 保险 政策 
更 好 地 预测 保费 损失 率 )。 作 为 参赛 选手 ， 你 要 做 的 第 一 步 就 是 仔细 审视 数据 集中 的 数据 ， 
确定 需要 做 哪 种 形式 的 预测 。 通 过 对 数据 的 审视 ， 可 以 获得 直观 的 感受 : 这 些 数 据 代表 
什么 ， 它 们 是 如 何 与 预测 任务 关联 起 来 的 。 数 据 通常 可 以 揭示 可 行 的 方法 。 图 1-5 描述 
了 从 通用 语言 对 预测 目标 的 描述 ， 到 对 数据 的 整理 准备 ， 以 作为 机 器 学 习 算法 输入 的 基 























本 步骤 。 
Hc, 通俗 的 说 法 “获得 更 好 的 结果 ”需要 先 转换 成 可 测量 可 优化 的 具体 目标 。 作 为 
网 站 的 拥有 者 ， 更 好 的 结果 可 以 是 提高 点 击 率 或 更 高 的 销售 额 (或 更 高 的 利润 )。 下 一 步 


就 是 收集 数据 ， 只 要 其 有 助 于 预测 : 特定 用 户 有 多 大 可 能 性 会 点 击 各 种 不 同类 型 的 链接 ， 
或 购买 在 线 提供 的 各 种 商品 。 将 这 些 数据 表示 为 特征 的 矩阵 ， 如 图 1-5 所 示 。 以 网 站 为 
例 ， 这 些 特征 可 能 包括 : 网 站 访问 者 之 前 浏览 的 其 他 网 页 、 访 问 者 之 前 购买 的 商品 。 除 
了 用 于 预测 的 这 些 特征 ， 针 对 此 类 问题 的 机 器 学 习 算 法 还 需要 已 知 正确 的 答案 用 于 训练 。 
在 图 1-5 中 表示 为 “目标 "。 本 书 涵盖 的 算法 通过 用 户 过 去 的 行为 来 发 现 用 户 的 购买 模式 ， 
当然 算法 不 是 单纯 地 记忆 用 户 过 去 的 行为 ， 毕 竞 一 个 用 户 不 可 能 重复 购买 他 昨天 刚刚 购买 
的 商品 。 第 3 章 将 详细 讨论 无 记忆 行为 的 预测 模型 的 训练 过 程 。 
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1-5 ”构造 一 个 机 器 学 习 问 题 


通常 构造 一 个 机 器 学 习 问 题 可 以 采用 不 同 的 方法 。 这 就 导致 了 问题 的 构造 、 模 型 的 选 
择 、 模 型 的 训练 、 模 型 性 能 评 佑 这 一 过 程 会 发 生 多 次 迭代 ， 如 图 1-6 所 示 。 

































问题 重 构 





















模型 训练 与 
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1-6 ”从 问题 形式 化 到 性 能 评估 的 迭代 过 程 
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与 问题 随 之 而 来 的 是 定量 的 训练 目标 ,或 者 部 分 任务 是 数据 提取 (这些 数据 叫 作 目标 
或 标签 )。 例 如 ， 考 虑 建立 一 个 自动 化 预测 证 券 交 易 的 系统 。 为 了 实现 交易 的 自动 化 ， 第 
一 步 可 能 是 预测 证 券 的 价格 变化 。 这 些 价格 是 很 容易 获得 的 ， 因 此 利用 历史 数据 构建 一 个 
训练 模型 来 预测 未 来 价格 的 变化 应 该 是 容易 的 。 但 是 即使 这 一 过 程 包含 了 多 种 算法 的 选择 
和 实验 ， 未 来 价格 的 变化 仍然 可 以 用 多 种 方法 来 计算 。 这 种 价格 的 变化 可 以 是 当前 价格 与 
10 分 钟 之 后 的 价格 的 差异 、 当 前 价格 与 10 天 之 后 的 价格 差异 ， 也 可 以 是 当前 价格 与 接 下 
来 的 10 分 钟 内 价格 的 最 高 值 、 最 低 值 之 间 的 差异 。 价 格 的 变化 可 以 用 一 个 2 值 的 变量 来 
表示 :“ 高 ”或 “ 低 ”， 这 依赖 于 10 分 钟 之 后 价格 是 升 高 还 是 降低 。 所 有 这 些 选择 将 会 
致 不 同 的 预测 模型 ， 这 个 预测 模型 将 用 于 决定 是 买 人 还 是 卖 出 证 券 ， 需 要 实验 来 确定 最 佳 
的 选择 。 


1.5.2 ”特征 提取 和 特征 工程 

确定 哪些 特征 可 用 于 预测 也 需要 实验 尝试 。 这 个 过 程 就 是 特征 提取 和 特征 工程 。 特 征 
提取 就 是 一 个 把 自由 形式 的 各 种 数据 (如 一 个 文档 中 的 字 词 、 一 个 网 页 中 的 字 词 ) 转换 成 
行 、 列 形式 的 数字 的 过 程 。 例 如 ， 垃 圾 邮件 过 滤 的 问题 ， 输 入 就 是 邮件 的 文本 ， 需 要 提取 
的 东西 包括 :文本 中 大 写字 母 的 数量 .所 有 大 写 的 词 的 数量 .在 文档 中 出 现 词 “ 买 ”的 次 数 ， 
等 等 ， 诸 如 此 类 的 数值 型 特征 。 然 后 基于 这 些 特征 把 垃圾 邮件 从 非 垃圾 邮件 中 区 分 出 来 。 

特征 工程 就 是 对 特征 进行 整理 组 合 ， 以 达到 更 富有 信息 量 的 过 程 。 建 立 一 个 证 券 交 易 
系统 包括 特征 提取 和 特征 工程 。 特 征 提取 将 决定 哪些 特征 可 以 用 来 预测 价格 。 过 往 的 价 
格 、 相 关 证 券 的 价格 、 利 率 、 从 最 近 发 布 的 新 闻 提 取 的 特征 都 是 现 有 公开 讨论 的 各 种 交 
易 系 统 的 输入 数据 。 而 且 证 券 的 价格 还 有 一 系列 的 工程 化 特征 ， 包 括 ， 指数 平滑 异同 移 
动 平 均线 (moving average convergence and divergence，MACD)、 相 对 强 弱 指数 (relative 
strength index, RSI) 等 。 这 些 特征 都 是 过 往 价格 的 函数 ， 它 们 的 发 明 者 都 认为 这 些 特征 
对 于 证 券 交 易 是 非常 有 用 的 。 

选 好 一 系列 合理 的 特征 后 ， 就 像 本 书 描述 的 那样 ， 需 要 训练 一 个 预测 模型 ， 评 价 它 的 
性 能 ， 然 后 决定 是 否 部 署 此 模型 。 为 了 确保 模型 的 性 能 足够 满足 要 求 ， 通 常 需要 调整 采 
用 的 特征 。 一 个 确定 使 用 哪些 特征 的 方法 就 是 尝试 所 有 的 组 合 ， 但 是 这 样 时 间 代 价 太 大 。 
不 可 避免 地 , 你 面临 着 提高 性 能 的 压力 , 但 是 又 需要 迅速 获得 一 个 训练 好 的 模型 投入 使 用 。 
本 书 讨论 的 算法 有 一 个 很 好 的 特征 ， 它 们 提供 对 每 个 特征 对 最 终 预 测 结果 的 贡献 的 度量 。 
经 过 一 轮训 练 ， 将 会 对 特征 打分 以 标识 其 重要 性 。 这 些 信 息 可 以 帮助 加 速 特征 工程 的 过 程 。 


数据 准备 和 特征 工程 估计 会 占 开 发 一 个 机 器 学 习 模 型 80% ~ 90% 的 时 间 。 







































































































































































模型 的 训练 也 是 一 个 过 程 ， 每 次 开始 都 是 先 选择 作为 基线 的 特征 集合 。 作 为 一 个 现 
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代 机 器 学 习 算法 (如 本 书 描述 的 算法 )， 通 常 训练 100 ~ 5000 个 不 同 的 模型 ， 然 后 从 
中 精 选 出 一 个 模型 进行 部 署 。 产 生 如 此 之 多 的 模型 的 原因 是 提供 不 同 复杂 度 的 模型 ， 这 
样 可 以 挑选 出 一 个 与 问题 、 数 据 集 最 匹配 的 模型 。 如 果 不 想 模 型 太 简单 又 不 想 放弃 性 能 ， 不 
想 模 型 太 复杂 又 不 想 出 现 过 拟 合 问题 ， 那 么 需要 从 不 同 复杂 度 的 模型 中 选择 一 个 最 合适 的 。 


1.5.3 ”确定 训练 后 模型 的 性 能 

一 个 模型 合适 与 否 是 由 此 模型 在 测试 数据 集 上 的 表现 来 决定 的 。 这 个 虽然 概念 上 
很 简单 ， 却 是 非常 重要 的 一 步 。 需 要 留 出 一 部 分 数据 ， 不 用 于 训练 ， 用 于 模型 的 测试 。 
在 训练 完成 之 后 ， 用 这 部 分 数据 集 测试 算法 的 性 能 。 本 书 讨论 了 留 出 这 部 分 测试 数据 
的 方法 。 不 同 的 方法 各 有 其 优势 ， 主 要 依赖 于 训练 数据 的 规模 。 就 像 字 面 上 理解 那么 
简单 ， 人 们 持续 地 提出 各 种 复杂 的 方法 让 测试 数据 “渗入 ”训练 过 程 。 在 处 理 过 程 
的 最 后 阶段 , 你 将 获得 一 个 算法 , 此 算法 读 取 数 据 , 产生 准确 的 预测 。 在 这 个 过 程 中 ， 
你 可 能 需要 检测 环境 条 件 的 变化 ， 这 种 变化 往往 会 导致 潜在 的 一 些 统计 特性 的 变化 。 
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依赖 于 读者 的 背景 和 是 否 有 时 间 来 了 解 基本 原理 ， 读 者 可 以 采用 不 同 的 方式 来 阅读 本 
书 。 图 1-7 为 本 书 各 章 之 间 的 依赖 关系 。 
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第 2 章 仔细 审视 各 种 数据 集 。 这 些 数 据 集 用 于 本 书 中 的 问题 实例 ， 用 以 说 明 算法 的 使 
用 ， 以 及 各 种 算法 之 间 基 于 性 能 和 其 他 特征 的 比较 。 面 对 一 个 新 的 机 器 学 习 问题 的 起 点 就 
是 深入 专 研 数据 集 ， 深 入 理解 数据 集 ， 了 人 解 它们 的 问题 和 特质 。 第 2 章 的 部 分 内 容 就 是 展 
示 Python 中 可 以 用 于 数据 集 探 索 的 一 些 工具 集 。 可 以 浏览 第 2 章 中 的 部 分 例子 ， 不 需要 
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阅读 全 部 例子 就 可 以 了 解 整个 流程 ， 当 在 后 续 章节 遇 至 
2 章 阅 读 相 关 的 部 分 。 
第 3 章 主要 介绍 机 器 学 习 问 题 中 的 基本 权衡 、 贯 穿 本 书 的 关键 概念 。 一 个 关键 概念 就 
是 预测 问题 的 数学 描述 ， 也 会 涉及 分 类 和 回归 问题 的 差别 。 第 3 章 也 介绍 了 如 何 使 用 样本 
外 (out-of-sample) 数据 (测试 数据 ) 来 评估 预测 模型 的 性 能 。 样 本 外 数据 是 指 在 模型 
训练 过 程 中 不 包括 的 数据 。 一 个 好 的 机 器 学 习 实 践 者 要 求 对 一 个 实际 部 署 的 预测 模型 
的 性 能 表现 有 相对 稳定 的 预 估 。 这 就 要 求 使 用 训练 数据 集 以 外 的 数据 来 模拟 新 的 数据 。 
第 3 章 将 介绍 这 么 做 的 原因 、 实 现 的 方法 以 及 这 些 方法 之 间 如 何 取舍 。 另 外 一 个 重要 
的 概念 就 是 系统 性 能 的 测量 方法 ， 第 3 章 将 描述 这 些 方法 以 及 它们 之 间 的 取舍 。 对 机 
器 学 习 比 较 熟 悉 的 读者 可 以 浏览 本 章 ， 快 速 略 过 代码 实例 ， 而 不 需要 仔细 阅读 代码 然 
后 运行 代码 。 

第 4 章 介绍 训练 惩罚 回归 模型 的 核心 思想 ， 以 及 基本 概念 及 算法 的 来 源 。 第 3 章 引 入 
的 一 些 实例 导致 了 惩罚 线性 回归 方法 的 产生 。 第 4 章 展示 了 解决 惩罚 线性 回归 训练 问题 的 
核心 算法 代码 ， 以 及 线性 回归 方法 的 几 种 扩展 。 一 种 扩展 是 将 因素 变量 (factor variable) 
编码 为 实数 ， 这 样 就 可 以 使 用 线性 回归 方法 。 线 性 回归 方法 只 能 用 在 预测 值 是 数值 的 情 
况 下 ， 也 就 是 说 需要 对 预测 值 进行 量化 。 许 多 实际 的 重要 问题 通常 的 变量 是 这 样 的 形式 : 
“单身 、 已 婚 或 离异 ”等 ， 这 种 变量 对 做 预测 是 很 有 帮助 的 。 如 果 要 引入 此 种 类 型 的 变量 
(类 别 变 量 ，categorical variables) 到 一 个 线性 回归 模型 ， 意 味 着 需要 设计 一 种 转换 方法 将 
类 别 变量 转换 为 实数 变量 ， 第 4 章 将 会 介绍 这 些 方法 。 第 4 章 还 介绍 叫 作 基 扩 展 (basis 
expansion) 的 方法 ， 此 方法 从 非 线 性 回归 中 获得 非 线性 函数 ， 有 时 基 扩 展 用 于 进一步 从 
线性 回归 中 “ 挤 榨 ” 出 一 些 性 能 的 提升 。 

第 5 章 将 第 4 章 介 绍 的 惩罚 回归 算法 应 用 于 第 2 章 提 到 的 问题 中 。 本 章 概述 实现 了 惩 
罚 回归 算法 的 Python 工具 包 ， 并 用 这 些 工具 包 来 解决 问题 。 本 章 的 目的 是 尽 可 能 覆盖 广 
泛 的 各 类 问题 的 变 体 , 这 样 当 读 者 遇 到 一 个 问题 时 , 可 以 找到 一 个 最 接近 的 问题 作为 借鉴 。 
除了 量化 并 比较 预测 的 性 能 ， 第 5 章 也 考查 这 些 算法 的 其 他 特征 。 理 解 特征 的 选择 、 特 征 
的 重要 性 (对 最 终 预测 结果 的 贡献 ) 是 很 重要 的 ， 这 种 理解 能 力 可 以 加 快 面临 新 间 题 时 的 
开发 进程 。 

第 6 章 关注 集成 方法 。 因 为 集成 方法 绝 大 多 数 情况 下 基于 二 元 决策 树 ， 第 一 步 就 是 理 
解 训 练 和 使 用 二 元 决策 树 的 原则 。 集 成 方法 的 很 多 特性 都 是 直接 继承 于 二 元 决策 树 。 基 于 
上 述 理解 ， 本 章 介 绍 3 个 主要 的 集成 方法 : Bagging、 提 升 (boosting) 和 随机 森林 。 上 述 每 
个 算法 都 介绍 了 使 用 的 基本 原则 、 核 心算 法 的 代码 ， 这 样 读者 就 会 了 解 如 何 使 用 这 些 算 法 。 

第 7 章 应 用 集成 方法 来 解决 第 2 章 中 的 问题 ， 然 后 对 各 种 算法 进行 对 比分 析 。 对 比分 
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具体 的 应 用 实例 时 ， 可 以 返回 到 第 
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析 的 内 容 包括 : 预测 的 性 能 、 训 练 所 需 的 时 间 和 性 能 等 。 所 有 的 算法 会 给 出 特征 的 重要 
性 打分 。 对 于 特定 的 问题 会 对 比分 析 特 征 在 不 同 的 算法 中 对 预测 结果 的 重要 性 。 

以 笔者 的 经 验 ， 向 程序 员 和 计算 机 科学 家 教授 机 器 学 习 ， 代 码 实例 要 优 于 数学 公式 。 
这 就 是 本 书 所 采用 的 方法 : 提供 一 些 基 础 的 数学 知识 、 算 法 框架 和 代码 实例 来 说 明 算 法 
的 关键 点 。 本 书 讨论 的 几乎 所 有 的 算法 都 可 以 在 本 书 或 网 站 上 找到 代码 ， 这 么 做 的 初衷 就 
是 让 读者 能 够 尽快 运行 代码 并 解决 面临 的 实际 问题 。 






































小 结 


本 章 介绍 了 本 书 要 解决 的 问题 以 及 构建 预测 模型 的 处 理 流 程 。 本 书 关注 两 类 算法 族 。 
限定 介绍 的 算法 的 数量 ， 可 以 让 我 们 更 透彻 地 解释 这 些 算法 的 背景 知识 以 及 这 些 算法 的 运 
行 机 理 。 本 章 通 过 性 能 对 比 说 明了 为 什么 选择 这 两 类 算法 。 讨 论 了 这 两 类 算法 族 的 特性 和 
各 自 的 优势 ， 并 且 详细 描述 了 各 自 适 合 解决 的 问题 。 

本 章 还 介绍 了 构建 一 个 预测 模型 的 步 又 ， 每 个 步骤 的 各 种 选择 的 权衡 ， 对 输出 结果 的 
考虑 。 非 模型 训练 时 使 用 的 数据 可 以 用 来 评估 预测 模型 。 

本 书 的 目的 是 使 机 器 学 习 知 之 甚 少 的 程序 员 通 过 本 书 的 学 习 ， 能 够 胜任 将 机 器 学 习 技 
术 引 入 项 目的 工作 。 本 书 并 不 关注 大 量 的 算法 。 相 反 ， 只 关注 当前 一 流 的 算法 ， 这 些 算法 
可 以 满足 对 性 能 、 灵 活性 和 清晰 的 要 求 。 一 旦 了 解 它 们 是 怎么 工作 的 ， 并 且 拥 有 了 使 用 它 
们 的 一 些 经 验 ， 就 会 发 现 它们 很 容易 上 手 。 这 些 算法 可 以 解决 广泛 的 问题 ， 而 不 需要 先 做 
大 量 的 训练 ， 这 也 帮助 读者 理解 这 些 算法 高 性 能 的 原因 。 
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第 2:5 
通过 理解 数据 来 了 解 问题 





新 数据 集 (问题 ) 就 像 一 个 包装 好 的 礼物 ， 它 充满 了 承诺 和 希望。 一 旦 你 能 解决 它 ， 
你 就 收获 了 喜 悦 。 但 是 直到 你 打开 它 , 它 都 一 直 保 持 着 神秘 。 本 章 就 是 告诉 你 怎么 “打开 ” 
新 的 数据 集 ， 看 清楚 里 面 都 有 什么 ， 知 道 如 何 处 置 这 些 数据 ， 并 且 开始 思考 如 何 利用 这 些 
数据 构建 相应 的 模型 。 

本 章 有 两 个 目的 : 一 是 熟悉 这 些 数据 集 ， 这 些 数据 集 被 用 来 作为 解决 各 种 类 型 问题 的 
例子 ， 主 要 是 利用 第 4 章 和 第 6 章 介绍 的 算法 ， 另 一 个 目的 就 是 展示 Python 中 分 析 数 据 
的 工具 包 。 

本 章 用 一 个 简单 的 例子 来 回顾 基础 问题 的 架构 、 术 语 、 机 器 学 习 数 据 集 的 特性 。 此 节 
介绍 的 术语 将 在 本 书后 续 章 节 中 用 到 。 在 了 解 了 通用 的 术语 后 ， 本 章 将 会 依次 介绍 几 类 不 
同 的 函数 双 近 问题 。 这 些 问 题 阐明 了 机 带 学 习 问 题 的 通常 变 体 ， 这 样 束 知道 如 何 识别 这 些 
变化 ， 并 且 知 道 如 何 处 理 它们 (本 节 提 供 代码 实例 )。 
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2.1 “解剖 ”一 个 新 问题 


本 书 介绍 的 算法 通常 是 从 一 个 充满 了 数字 ， 可 能 是 特征 (变量 ) 的 和 矩阵 (或 表格 ) 开 
始 的 。 表 2-1 展示 了 一 些 术语 ， 代 表 了 一 个 小 规模 的 二 维 机 器 学 习 数 据 集 。 此 表 提 供 了 一 
个 数据 集 的 基本 印象 ， 这 样 对 “ 列 代表 属性 特征 ， 行 代表 实例 ”等 约定 就 比较 熟悉 。 这 个 
例子 中 的 问题 是 预测 下 一 年 在 线 购 买书 籍 所 需 花 费 的 金额 。 






























































* 2-1 一 个 机 器 学 习 问题 的 数据 
ĦA id 属性 1 属性 2 属性 3 标签 
001 6.5 Male 12 120 美元 
004 4.2 Female 17 270 美元 
007 5.7 Male 3 75 美元 
008 5.8 Female 8 600 美元 
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数据 是 按照 行 和 列 组 织 的 。 每 行 代表 一 个 实例 (或 者 叫 一 个 例子 、 观 察 )。 在 表 2-1 
中 每 列 指定 相应 的 列 名 ， 用 来 指明 在 一 个 机 器 学 习 问 题 中 所 起 的 作用 。 标 明 为 “属性 ”的 
列 用 来 预测 在 买书 上 所 花 的 费用 。 在 标明 为 “标签 ”的 列 ， 可 以 看 到 去 年 每 个 顾客 在 购书 
上 的 花费 。 
机 器 学 习 数 据 集 通常 列 对 应 一 个 属性 ， 行 对 应 一 个 观察 ， 但 也 有 例外 。 例 如 ， 有 些 文本 挖 握 问 题 
的 数据 托 阵 就 是 另外 的 形式 : 列 对 应 一 个 观察 ， 行 对 应 一 个 属性 。 


在 表 2-1 中 ,一 行 代表 一 个 顾客 ， 此 行 的 数据 都 与 此 顾客 相关 。 第 一 列 叫 作 UserID (用 
户 ID)， 是 每 行 惟一 的 识别 符 。 实 际 问题 中 可 能 有 惟一 识别 符 也 可 能 没有 。 例 如 ， 网 站 通 
常 为 网 站 的 访客 建立 一 个 相应 的 用 户 IP， 并 且 在 此 用 户 访问 网 站 期 间 ， 用 户 的 所 有 行为 
都 与 此 用 户 ID 绑 定 。 如 果 用 户 在 此 网 站 上 没有 注册 ， 则 用 户 的 每 次 访问 都 将 获得 一 个 不 
同 的 用 户 ID。 通 常 每 个 观察 会 被 分 配 一 个 DD， 这 个 就 是 预测 的 目标 对 象 。 第 2 一 第 4 列 
称 为 属性 ， 以 代替 更 具体 的 名 字 ， 如 身高 、 性 别 等 。 这 主要 是 为 了 突出 他 们 在 预测 过 程 中 
起 到 的 作用 。 属 性 就 是 在 具体 实例 中 用 来 预测 的 数据 。 
标签 就 是 需要 预测 的 数据 。 在 这 个 例子 中 ， 用 户 ID 就 是 一 个 简单 的 数字 ， 属 性 1 
是 身高 ， 属 性 2 是 性 别 ， 属 性 3 是 此 人 去 年 阅读 的 书籍 的 数量 。 标 签 列 上 的 数字 代表 每 
人 去 年 在 线 购书 的 花费 。 那 么 不 同类 型 的 数据 分 别 代 表 什 么 样 的 角色 呢 ? 一 个 机 器 学 习 
算法 是 如 何 利用 用 户 也 、 属 性 和 标签 列 的 呢 ? 最 简短 的 回答 就 是 : 忽略 用 户 ID。 使 用 
属性 来 预测 标签 。 

惟一 的 用 户 ID 只 是 起 到 记 账 的 目的 ， 在 某 些 情况 下 可 以 根据 用 户 ID 检索 到 用 户 的 
其 他 数据 。 通 常 机 器 学 习 算 法 并 不 直接 使 用 用 户 ID。 属 性 是 挑选 出 来 用 于 预测 的 。 标 签 
me ee e M 

预测 通常 不 用 用 户 ID 信息 ， 因 为 它 太 特殊 了 。 它 一 般 只 属于 一 个 实例 。 一 个 机 器 学 
习 的 技巧 就 是 构建 的 模型 要 有 泛 化 能 CENT DAC ANSEA, 而 不 仅仅 是 把 过 去 的 例子 
都 记 下 来 ) 。 为 了 达到 这 个 目的 ， 算 法 必须 能 够 关注 到 不 止 一 行 的 数据 。 一 个 可 能 的 例 
外 是 ， 如 果 用 户 ID 是 数字 的 ， 并 且 是 按照 用 户 登 录 的 时 间 依 次 进行 分 配 的 。 这 样 就 指示 
了 用 户 的 登录 日 期 ， 那 么 如 果 用 户 ID. 比较 接近 , 就 证 明了 用 户 是 在 比较 接近 的 时 间 上 登 
录 的 ， 依 此 为 条 件 可 以 把 用 户 划分 为 不 同 的 组 。 

构建 预测 模型 的 过 程 叫 作 训练 。 具 体 的 方法 依赖 于 算法 ， 后 续 章节 会 详 述 ， 但 基本 上 
采用 和 迭代 的 方式 。 算 法 假定 属性 和 标签 之 间 存 在 可 预测 的 关系 ， paused 做 出 修 
正 ， 然 后 重复 此 过 程 直到 获得 一 个 相对 满意 的 模型 。 技 术 细 节 后 续 会 介绍 ， 这 里 只 是 介绍 
基本 思想 。 
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名 字 的 含义 : 
属性 和 标签 有 不 同 的 名 字 。 机 器 学 习 的 初学 者 往往 被 这 些 名 词 迷 惑 ， 不 同 的 作者 可 能 会 采用 不 同 的 
名 字 ， 其 至 一 篇 文章 的 段落 与 段落 之 间 都 会 采用 不 同 的 名 字 。 
属性 ( 用 来 进行 预测 的 变量 ) 也 被 称 为 : 
e 预测 因子 
e 特征 
e 独立 变量 
输入 
标签 通常 也 被 称 为 : 
结果 
目标 
依赖 变量 
响应 











* 


* 
* 
* 
* 


2.1.1. 属性 和 标签 的 不 同类 型 决定 模型 的 选择 

表 2-1 中 的 属性 可 以 分 成 2 类 :数值 变量 、 类 别 (或 因素 、 因子) 变量 。 属 性 1 (身高 ) 
是 一 个 数值 变量 ， 也 是 最 常见 的 属性 类 型 。 属 性 2 是 性 别 ， 可 以 是 男性 或 女性 。 这 种 类 
型 的 属性 叫 作 类 别 变量 或 因素 变量 。 类 别 变量 的 一 个 特点 就 是 不 同 值 之 间 没 有 顺序 关系 。 
男性 < 女性 是 没有 意义 的 ( 噢 ， 忘 掉 几 个 世纪 的 争吵 吧 )。 类 别 变量 可 以 是 2 值 的 ， 如 男 
性 和 女性 ， 也 可 以 是 多 值 的 ， 如 美国 的 州 (AL，AK，AR，…WY)。 关 于 属性 还 有 其 他 
差别 (如 整数 与 浮 点 数 ) ， 但 这 些 差别 对 机 器 学 习 算 法 的 影响 并 不 像 数 值 变量 和 类 别 变量 
那么 大 。 主 要 原因 是 很 多 机 器 学 习 算法 只 能 处 理 数值 变量 ， 不 能 处 理 类 别 变量 或 因素 变 
量 (factor variable)。 例 如 ， 惩 罚 回归 算法 只 能 处 理 数值 变量 ，SVM、 核 方法 、K 最 近邻 
也 是 同样 。 第 4 章 将 介绍 将 类 别 变量 转换 为 数值 变量 的 方法 。 这 些 变量 的 特性 将 会 影响 算 
法 的 选择 以 及 开发 一 个 预测 模型 的 努力 的 方向 ， 因 此 这 也 是 当面 临 一 个 新 间 题 时 ， 需 要 考 
虑 的 因素 之 一 。 

这 种 二 分 法 同样 适用 于 标签 。 表 2-1 所 示 的 标签 是 数值 的 : 去 年 在 线 购书 所 花费 的 金 
额 。 然 而 在 其 他 问题 中 ， 标 签 就 可 能 是 类 别 的 。 例 如 ， 如 果 表 2-1 的 任务 是 预测 哪些 人 下 
一 年 的 花费 超过 200 美元 ， 那 么 问题 就 变 了 ， 解 决 问题 的 方法 也 随 之 变 了 。 预 测 哪些 顾 
客 的 花费 会 超过 200 美元 的 新 间 题 会 产生 新 的 标签 。 这 些 标 签 会 在 两 个 值 中 选 一 个 。 表 2-1 
中 的 标签 与 新 的 逻辑 命题 “花费 >200 美元 ”下 的 新 标签 之 间 的 关系 如 表 2-2 所 示 。 表 2-2 
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所 示 的 新 标签 取 值 为 : 真 或 假 。 

















表 2-2 数值 标签 与 类 别 标签 
表 2-1 标签 >200 美元 ? 
120 美元 False 
270 美元 True 
75 美元 False 
600 美元 True 
当 标签 是 数值 的 ， 就 叫 作 回归 问题 。 当 标签 是 类 别 的 ， 就 叫 作 分 类 问题 。 如 果 分 类 结 
果 只 取 2 个 值 ， 就 叫 作 二 元 分 类 问题 。 如 果 取 多 个 值 ， 就 是 多 类 别 分 类 问题 。 





在 很 多 情况 下 ， 问 题 的 类 型 是 由 设计 者 选择 的 。 刚 刚 的 合子 就 是 如 何 把 一 个 回归 问题 
转换 为 二 元 分 类 问题 ， 只 需要 对 标签 做 简单 的 变换 。 这 实际 上 是 面临 一 个 问题 时 所 做 的 一 
种 权衡 。 例 如 ， 分 类 目标 可 以 更 好 地 支持 2 种 行为 选择 的 决策 问题 。 
分 类 问题 也 可 能 比 回 归 问 题 简单 。 例 如 考虑 2 个 地 形 图 的 复杂 度 差 异 ， 一 个 地 形 图 上 
有 一 个 等 高 线 (如 30.5 米 的 等 高 线 )， 而 另 一 个 地 形 图 每 隔 3.05 米 就 有 一 个 等 高 线 。 只 
有 一 个 等 高 线 的 地 形 图 将 地 图 分 成 高 于 30.5 米 的 区 域 和 低 于 30.5 米 的 区 域 ， 因 此 相 比 另 
一 个 地 形 图 含有 更 少 的 信息 。 一 个 分 类 器 就 相当 于 只 算出 一 个 等 高 线 ， 而 不 再 考虑 与 这 条 
分 界线 的 远近 距离 之 类 的 问题 ， 而 回归 的 方法 就 相当 于 要 绘制 一 个 完整 的 地 形 图 。 


2.1.2 ”新 数据 集 的 注意 事项 

初始 审视 数据 集 时 ， 还 需要 考查 数据 集 的 其 他 特性 。 下 面 是 一 个 检查 清单 ， 是 为 了 熟 
悉数 据 集 需要 考察 的 一 系列 事情 ， 这 也 有 利于 明确 后 续 预 测 模型 的 开发 流程 。 这 些 都 是 很 
简单 的 事情 ， 但 是 直接 影响 后 续 步 又 ， 通 过 这 个 过 程 可 以 了 解 此 数据 集 的 特性 。 

需要 检查 的 事项 : 

e 行 数 、 列 数 

e 类 别 变量 的 数目 、 类 别 的 取 值 范围 

多 缺失 的 值 

e 属性 和 标签 的 统计 特性 

第 一 个 要 确认 的 就 是 数据 的 规模 。 将 数据 读 入 二 维 数组 , 则 外 围 数组 的 维度 就 是 行 数 ， 
内 部 数组 的 维度 就 是 列 数 。 下 节 将 会 展示 针对 某 一 数据 集 应 用 此 方法 获取 数据 的 规模 。 

下 一 步 就 要 确定 每 行 有 多 少 缺失 的 值 。 这 么 一 行 行 处 理 数据 的 原因 是 处 理 缺 失 数据 最 
简单 的 方法 就 是 直接 抛弃 有 缺失 数据 的 行 (如 至 少 少 了 一 个 值 的 行 )。 在 很 多 情况 下 ， 这 
样 做 会 导致 结果 偏差 ， 但 在 抛弃 的 行 不 多 的 情况 下 ， 并 不 会 产生 实质 性 的 差异 。 通 过 计算 
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具有 缺失 数据 的 行 数 (加 上 具体 缺失 的 项 数 )， 就 可 以 知道 如 果 采 用 最 简单 的 方法 ， 则 实 
际 上 抛弃 了 多 少数 据 。 

如 果 你 有 大 量 的 数据 ， 例 如 正在 收集 互联 网 上 的 数据 ， 那 么 丢失 的 数据 相对 于 你 获得 
的 数据 总 量 应 该 是 微不足道 的 。 但 如 果 处 理 的 是 生物 数据 ， 这 些 数 据 都 比较 昂贵 ， 而 且 有 
多 种 属性 ， 这 时 抛弃 这 些 数据 的 代价 就 太 大 了 。 在 这 种 情况 下 ， 需 要 找到 方法 把 丢失 的 值 
填 上 ， 或 者 使 用 能 够 处 理 丢失 数据 的 算法 。 把 丢失 的 数据 填 上 的 方法 一 般 叫 作 遗 失 值 插 
补 (imputation)。 遗 失 值 插 补 的 最 简单 方法 就 是 用 每 行 所 有 此 项 的 值 的 平均 值 来 代替 遗失 
的 值 。 更 复杂 的 方法 要 用 到 第 4 章 和 第 6 章 介 绍 的 预测 模型 。 用 预测 模型 时 ， 将 含有 遗失 
值 的 那 列 属性 当 作 标 签 ， 当 然 在 进行 这 步 之 前 要 确保 将 初始 问题 的 标签 移 除 。 

接 下 来 的 小 节 将 从 头 到 尾 介绍 分 析 数 据 集 的 完整 过 程 ,并 引入 刻画 数据 集 的 一 些 方法 ， 
这 些 都 将 帮助 你 确定 如 何 解决 建 模 的 问题 。 


2.2 FROM: 用 声 纳 发 现 未 爆炸 的 水 雷 

此 小 节 将 介绍 在 分 类 问题 上 首先 需要 做 的 工作 。 首 先是 简单 的 测量 : 数据 的 规模 、 数 
据 类 型 、 缺 失 的 数据 等 。 接 着 是 数据 的 统计 特性 、 属 性 之 间 的 关系 、 属 性 与 标签 之 间 的 关 
系 。 本 节 的 数据 集 来 自 UC Irvine 数据 仓库 ( 见 参考 文献 1) 。 数 据 来 源 于 实验 : 测试 声 纳 
是 否 可 以 用 于 检测 在 港口 军事 行动 后 遗留 下 来 的 未 爆炸 的 水 雷 。 声 纳 信号 又 叫 作 咽 嗽 信号 
(chirped signal) ， 即 信号 在 一 个 脉冲 期 间 频 率 会 增加 或 降低 。 此 数据 集 的 测量 值 代表 声 纳 
接收 器 在 不 同 地 点 接收 到 的 返回 信号 ， 其 中 在 大 约 一 半 的 例子 中 ,返回 的 声 纳 信号 反映 的 
是 岩石 的 形状 ， 而 另 一 半 是 金属 圆 简 的 形状 (水雷 )。 下 文 就 用 “岩石 vs. 水 雷 ” 来 代表 
这 个 数据 集 。 


2.2.1 “岩石 vs. 水雷 ”数据 集 的 物理 特性 

对 新 数据 集 所 做 的 第 一 件 事 就 是 确定 数据 集 的 规模 。 代 码 清单 2-1 为 获取 “岩石 vs. 
水 雷 ”数据 集 规模 的 代码 。 在 本 章 的 后 续 内 容 ， 将 多 次 遇 到 此 数据 集 ， 主 要 用 来 作为 介绍 
算法 的 例子 ， 此 数据 集 来 源 于 UC Irvine 数据 仓库 。 在 此 例 中 ， 确 定数 据 集 的 行 数 、 列 数 
的 代码 十 分 简单 。 数 据 集 文件 是 由 逗号 分 割 的 ， 一 次 实验 数据 占据 文本 的 一 行 。 文 件 处 理 
十 分 简单 : 读 和 一行， 对 数据 按 逗 号 进行 分 割 ， 将 结果 列表 存 人 输出 列表 即 可 。 





































































































代码 清单 2-1 确定 新 数据 集 规 模 -rockVmineSummaries.py 
( 输出 : outputRocksVMinesSummaries.txt ) 


, author = 'mike bowles' 


import urllib2 
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import sys 
#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target_url) 


#arrange data into list for labels and list of lists for attributes 


xList = [] 
labels = [] 
for line in data: 
#split on comma 
row = line.strip().split(",") 


xList.append (row) 


sys.stdout.write("Number of Rows of Data = " + str(len(xList)) + ' 
sys.stdout.write("Number of Columns of Data = " + str(len(xList[1] 
Output: 


Number of Rows of Data = 208 


Number of Columns of Data = 61 





如 代码 输出 所 示 ， 此 数据 集 为 208 17, 61 列 (每 行 61 个 字段 )。 这 有 什么 影 
数据 集 的 规模 ( 行 数 、 列 数 ) 至 少 在 以 下 几 个 方面 会 影响 你 对 数据 的 处 理 。 首 先 
数据 的 规模 可 以 大 致 判断 训练 所 需 的 时 间 。 对 于 像 “ 岩 石 vs. 水 雷 ” 这 种 小 数据 
练 时 间 会 少 于 1 分 钟 ， 这 有 利于 在 训练 过 程 中 不 断 调 整 和 迭代 。 如 果 数 据 集 规 模 
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1000x1 000， 惩 罚 线性 回归 训练 时 间 将 不 到 一 分 钟 ， 而 集成 方法 训练 时 间 需 要 几 分钟 。 
如 果 数 据 集 的 行 、 列 增加 到 万 级 规模 ， 则 惩罚 线性 回归 的 训练 时 间 将 达到 3 一 4 小 时 ， 而 
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集成 方法 则 长 达 12 ~ 24 小 时 。 更 长 的 训练 时 间 将 会 影响 你 的 开发 进度 ， 因 为 通 
迁 代 几 次 来 对 算法 进行 调整 或 优化 。 

另外 一 个 重要 的 观察 是 如 果 数 据 集 的 列 数 远 远大 于 行 数 ， 那 么 采用 惩罚 线性 回 
法 则 有 很 大 的 可 能 获得 最 佳 的 预测 ， 反 之 亦 然 。 在 第 3 章 有 实际 的 例子 ， 这 会 
结论 的 理解 。 
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归 的 方 


加 深 对 这 个 


根据 应 做 事项 清单 ， 下 一 步 要 做 的 就 是 确定 哪些 列 是 数值 型 的 ， 哪 些 列 是 类 别 型 的 。 


代码 清单 2-2 为 针对 “岩石 vs. 水 雷 ” 数 据 集 完成 上 述 分 析 的 代码 。 代 码 依次 检查 每 一 列 ， 
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确定 数值 型 〈 整 型 或 浮 点 型 ) 的 条 目 数量 、 非 空 字 符 串 的 条 目 数量 、 内 容 为 空 的 条 目 数量 。 
分 析 的 结果 是 : 前 60 列 都 是 数值 型 ， 最 后 一 列 都 是 字符 串 。 这 些 字符 串 值 是 标签 。 通 常 类 别 
型 变量 用 字符 串 表示 ， 如 此 例 所 示 。 在 某 些 情况 下 ， 二 值 类 别 变量 可 以 表示 成 0 和 1。 

















代码 清单 2-2 ”确定 每 个 属性 的 特征 -rockVmineContents.py 
( 输出 : outputRocksVMinesContents.txt ) 


, author = 'mike bowles' 
import urllib2 


import sys 


fread data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data - urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList = [] 
labels - [] 
for line in data: 
#split on comma 
row = line.strip().split(",") 
xList.append(row) 


nrow = len(xList) 





ncol = len(xList[1]) 


type = [0]*3 


colCounts = [] 


for col in range (ncol): 
for row in xList: 
try: 
a = float (row[col]) 
if isinstance(a, float): 


type[0] += 1 





except ValueError: 


if len(row[col]) > 0: 
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type[1] t= 1 
else: 


type[2] += 1 





colCounts.append(type) 
type = [0]*3 


sys.stdout.write("Col#" + 'Nt' + "Number" + 'Nt' + 
"Strings" + 'Nt ' + "Other\n") 
iCol = 0 
for types in colCounts: 
sys.stdout.write(str(iCol) + '\t\t' + str(types[0]) + 'NtNt' + 
str(types[1]) + 'NtNt' + str(types[2]) + "\n") 


iCol += 1 

Output: 

Col# Number Strings Other 
0 208 0 0 
1 208 0 0 
2 208 0 0 
3 208 0 0 
4 208 0 0 
5 208 0 0 
6 208 0 0 
7 208 0 0 
8 208 0 0 
9 208 0 0 

10 208 0 0 

11 208 0 0 

54 208 0 0 

55 208 0 0 

56 208 0 0 

57 208 0 0 

58 208 0 0 

59 208 0 0 

60 0 208 0 
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2.2.2 “sAvs. 水雷 ”数据 集 统 计 特 征 


计 信 息 和 类 别 型 属 











确定 哪些 属性 是 类 别 型 ， 哪 些 是 数值 型 之 后 ， 下 一 步 就 是 获得 数值 型 属性 的 描述 性 统 
性 具体 类 别 的 数量 分 布 。 代 码 清 单 2-3 为 这 两 个 处 理 过 程 的 实例 代码 。 














代码 清单 2-3 ”数值 型 和 类 别 型 属性 的 统计 信息 -rVMSummaryStats.py 
( 输出 : outputSummaryStats.txt ) 


, author = 'mike bowles' 
import urllib2 
import sys 


import numpy as np 


#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList - [] 
labels - [] 


for line in data: 
#split on comma 
row = line.strip().split(",") 
xList.append(row) 


nrow = len(xList) 





ncol = len(xList[1]) 


type = [0]*3 


colCounts = [] 


#generate summary statistics for column 3 (e.g.) 
col = 3 

colData = [] 

for row in xList: 


colData.append (float (row [col])) 


colArray = np.array(colData) 
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colMean = np.mean(colArray) 
colsd = np.std(colArray) 
sys.stdout.write("Mean = " + '\t' + str(colMean) + 'NtNt' + 


"Standard Deviation = " + '\t ' + str(colsd) + "\n") 


#calculate quantile boundaries 


ntiles = 4 


percentBdry = [] 


for i in range (ntiles-*1): 


percentBdry.append(np.percentile(colArray, i*(100)/ntiles)) 





sys.stdout.write("\nBoundaries for 4 Equal Percentiles Mn") 
print (percentBdry) 


Sys.stdout.write(" Mn") 


frun again with 10 equal intervals 


ntiles - 10 


percentBdry = [] 


for i in range (ntiles-*1): 


percentBdry.append(np.percentile(colArray, i*(100)/ntiles)) 





sys.stdout.write ("Boundaries for 10 Equal Percentiles Wn") 
print (percentBdry) 


sys.stdout.write(" Mn") 


#The last column contains categorical variables 


col = 60 
colData = [] 
for row in xList: 


colData.append(row[col]) 


unique = set(colData) 
sys.stdout.write("Unique Label Values Mn") 


print (unique) 
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#count up the number of elements having each value 





catDict = dict (zip (list (unique) ,range (len(unique)))) 


catCount = [0]*2 


for elt in colData: 


catCount[catDict[elt]] += 1 





sys.stdout.write("\nCounts for Each Value of Categorical Label \n") 


print (list (unique) ) 


print (catCount) 


Output: 


Mean = 0.053892307 Standard Deviation - 0.046415983 





Boundaries for 4 Equal Percentiles 


[0.0057999999999999996, 0.024375000000000001, 0.044049999999999999, 


0.064500000000000002, 0.4264] 





Boundaries for 10 Equal Percentiles 
[0.00579999999999, 0.0141, 0.022740000000, 0.0278699999999, 


0.0362200000000, 0.0440499999999, 0.050719999999, 0.0599599999999, 


0.0779400000000, 0.10836, 0.4264] 
Unique Label Values 
set(['R', 'M']) 





Counts for Each Value of Categorical Label 
LER"; 'M'] 


[97, 111] 





代码 第 一 部 分 读 取 数 值 型 数据 的 某 一 列 ， 然 后 产生 它 的 统计 信息 。 第 一 步 计算 此 属性 


的 均值 和 方差 。 了 解 这 些 统计 信息 可 以 加 强 在 建立 预测 模型 时 的 直观 感受 。 

















第 二 部 分 代码 主要 是 为 了 找到 异常 值 。 基 本 过 程 如 下 :假设 在 下 面 数 值 列 表 [0.1,0.15， 
0.2, 0.25, 0.3, 0.35, 04, 4] 中 确定 是 否 有 异常 值 ， 显 然 最 后 一 个 数 “4” 是 异常 值 。 























发 现 这 种 异常 值 的 一 种 方法 是 : 将 一 组 数字 按照 百 分 位 数 进 行 划 分 。 例 如 ， 
分 位 数 是 含有 最 小 的 25% 的 数 ， 第 50 百 分 位 数 是 含有 最 小 的 50% 的 数 。 把 这 

















视 化 最 简单 的 方法 是 假想 把 这 些 数 据 按 顺序 排列 。 上 述 的 例子 已 经 按 顺 序 排 好 ， 





第 25 A 
种 分 组 可 
这 样 就 可 
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以 很 容易 地 看 到 百 分 位 数 的 边界 。 一 些 经 常用 到 的 百 分 位 数 通常 被 赋予 特殊 的 名 字 。 将 
数组 按照 1/4, 1/5, 1/10 划分 的 百 分 位 数 通常 分 别 叫 作 四 分 位 数 (quartiles， 按 顺序 排列 
的 一 组 数据 被 划分 为 4 个 相等 部 分 的 分 割 点 的 数值 )、 五 分 位 数 (quintiles) 和 十 分 位 数 
(deciles ) 。 

上 述 的 数组 很 容易 定义 出 四 分 位 数 ， 因 为 此 数组 已 按 顺 序 排 好 ， 共 有 8 个 元 素 。 第 一 
个 四 分 位 数 含 有 0.1 和 0.15， 以 下 的 以 此 类 推 。 可 以 注意 到 这 些 四 分 位 数 的 跨度 。 第 一 个 
是 0.05 (0.15 ~ 0.1)。 第 二 个 四 分 位 数 的 跨度 也 大 致 相同 。 然 而 最 后 一 个 四 分 位 数 的 跨 
度 却 是 3.6， 这 个 是 其 他 四 分 位 数 跨度 的 几 十 倍 。 

代码 清单 2-3 中 四 分 位 数 边 界 的 计算 过 程 与 之 类 似 。 程 序 计 算 四 分 位 数 ， 然 后 显示 最 
后 一 个 四 分 位 数 的 跨度 要 比 其 他 的 宽 很 多 。 为 了 更 加 准确 ， 又 计算 了 十 分 位 数 ， 同 样 证 明 
了 最 后 一 个 十 分 位 数 的 跨度 要 远 远 大 于 其 他 的 十 分 位 数 。 有 些 情 况 下 的 最 后 一 个 分 位 数 变 
宽 是 正常 的 ， 因 为 通常 数据 的 分 布 在 尾部 会 变 稀 琉 。 


2.2.3 ”用 分 位 数 图 展示 异常 点 

更 具体 地 研究 异常 点 (异常 值 ) 的 一 个 方法 就 是 画 出 数据 的 分 布 图 ， 然 后 与 可 能 的 
分 布 进行 比较 ， 判 断 相关 的 数据 是 否 匹配 。 代 码 清 单 2-4 展示 如 何 使 用 Python 的 probplot 
函数 来 帮助 确认 数据 中 是 否 含有 异常 点 。 分 布 图 展示 了 数据 的 百 分 位 边界 与 高 斯 分 布 的 同 
样 百 分 位 的 边界 对 比 。 如 果 此 数据 服从 高 斯 分 布 , 则 画 出 来 的 点 应 该 是 一 条 直线 。 来 自 “ 岩 
石 vs. 水 雷 ” 数 据 集 的 第 4 列 (第 4 属性 ) 的 一 些 点 远离 这 条 直线 ， 如 图 2-1 所 示 。 这 说 
明 此 数据 集 尾部 的 数据 要 多 于 高 斯 分 布 尾部 的 数据 。 
















































































代码 清单 2-4 “AA vs 水 雷 ” 数 据 集 的 第 4 列 的 分 位 数 图 -qqplotAttribute.py 


, author = 'mike bowles' 
import numpy as np 

import pylab 

import scipy.stats as stats 
import urllib2 


import sys 


target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


22 分 类 问题 ， 用 声 纳 发 现 未 爆炸 的 水 雷 


#arrange data into list for labels and list of lists for attributes 
xList = [] 
labels = [] 


for line in data: 
#split on comma 
row = line.strip().split(",") 
xList.append (row) 

nrow = len(xList) 

ncol = len(xList[1]) 

type = [0]*3 


colCounts - [] 





#generate summary statistics for column 3 (e.g.) 
col = 3 

colData = [] 

for row in xList: 


colData.append (float (row[col]) ) 


stats.probplot(colData, dist="norm", plot=pylab) 
pylab.show() 
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图 2-1 “岩石 vs. 水雷” 数据 集 第 4 属性 的 分 位 数 
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那么 如 何 利用 这 些 信 息 ? 异常 点 在 建 模 或 预测 期 间 都 会 带 来 麻烦 。 基 于 此 数据 集 
训练 完 一 个 模型 后 ， 可 以 查看 此 模型 预测 错误 的 情况 ， 然 后 确认 此 错误 是 否 与 这 些 异 
常 点 有 关 。 如 果 确 实 是 这 样 的 话 ， 可 以 采取 步骤 进行 校正 。 例 如 ， 可 以 复制 这 些 预测 
模型 表现 不 好 的 例子 ， 以 加 强 这 些 例子 在 数据 集中 的 比重 。 也 可 以 把 这 些 不 好 的 例子 
分 离 出 来 ， 然 后 单独 训练 。 如 果 认为 预测 模型 在 真正 部 署 时 不 会 遇 到 此 类 异常 数据 ， 
则 也 可 以 把 这 些 例子 排除 出 数据 集 。 一 个 可 行 办 法 是 在 对 数据 集 进行 探究 阶段 ， 先 产 
生 四 分 位 数 边界 ， 然 后 看 看 潜在 的 异常 点 的 规模 对 后 续 建 模 及 预测 可 能 的 影响 。 这 样 
在 分 析 错 误 时 ， 可 以 通过 分 位 数 图 (quantile-quantile, Q-Q) 确定 哪些 数据 可 以 称 为 


Base 
异常 点 。 
























































2.24 ”类 别 属性 的 统计 特征 

上 述 的 分 析 过 程 只 适用 于 数值 属性 。 那 么 类 别 属性 呢 ?” 你 可 能 想 知 道 一 共 可 以 分 为 几 
类 、 每 类 数据 的 数目 。 想 获得 这 些 信息 主要 是 基于 以 下 原因 : 性 别 属性 有 两 个 值 ( 男 、 女 )， 
晶 是 如 果 属 性 是 美国 的 州 ， 则 有 SO 个 可 能 的 值 。 随 着 属性 数目 的 增加 ， 处 理 的 复杂 度 也 
在 增加 。 绝 大 多 数 二 元 决策 树 算法 (集成 方法 的 基础 ) 对 于 其 可 以 处 理 的 类 别 数 是 有 限制 
的 。 由 Breiman 和 Cutler (此 算法 的 发 明 人 ) 写 的 流行 的 随机 森林 算法 包 支 持 32 个 类 别 。 
如 果 一 个 属性 超过 32 个 类 别 ， 则 需要 合并 。 
有 时 在 训练 过 程 中 会 随机 抽取 数据 集 的 一 个 子 集 ， 然 后 在 此 子 集 上 训练 一 系列 的 模型 。 
例如 ， 如 果 类 别 属 性 就 是 美国 的 州 ， 其 中 爱 达 荷 州 只 出 现 了 两 次 。 一 个 随机 抽取 的 训练 用 
数据 子 集中 很 可 能 不 含有 爱 达 荷 州 的 样本 。 你 需要 在 这 些 问题 发 生前 就 预见 到 可 能 会 出 现 
这 样 的 情况 ， 然 后 再 着 手 进行 处 理 。 以 两 个 爱 达 荷 州 的 样本 为 例 ， 可 以 把 它 与 蒙 大 纳 州 或 
怀俄明 州 合 并 ， 也 复制 这 两 个 样本 (增加 其 所 占 的 比例 )， 或 者 控制 随机 取样 保证 抽取 到 
含有 爱 达 荷 州 的 样本 ， 这 个 过 程 叫 作 分 层 抽 样 (stratified sampling). 
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2.2.55 利用 Python Pandas 对 “岩石 vs. 水 雷 ” 数 据 集 进行 统计 分 析 
Python Pandas 工具 包 可 以 帮助 自动 化 数据 统计 分 析 的 过 程 ， 已 经 被 证 实在 数据 预 处 

理 阶段 特别 有 用 。Pandas 工具 包 可 以 将 数据 读 入 一 种 特定 的 数据 结构 ， 叫 作 数据 框 (data 

frame) 。 数 据 框 是 依据 CRAN-R 数据 结构 建 模 的 。 

Pandas 工具 包 的 安装 可 能 会 有 困难 ， 主 要 原因 是 它 有 一 系列 的 依赖 ， 每 个 依赖 必须 安装 正确 的 
版 本 ， 而 且 相互 之 间 要 匹配 ， 或 者 诸如 此 类 的 问题 。 绕 过 此 类 障碍 的 一 个 简单 的 方法 就 是 直接 
安装 Anaconda Python Distribution 分 发 包 ， 此 分 发 包 可 以 直接 从 Continuum Analytics ( http:// 
continuum.io) 处 下 载 。 安 装 过 程 十 分 简单 ， 只 要 按 指令 依次 进行 就 可 以 安装 好 数据 分 析 、 机 
器 学 习 所 需 的 大 量 软件 包 。 
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你 可 以 把 数据 框 当 成 一 个 表格 或 者 类 似 矩 阵 的 数据 结构 ， 如 表 2-1 所 示 。 数 据 框 
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定义 


行 代表 一 个 实例 (一 次 实验 、 一 个 例子 、 一 次 测量 等 )， 列 代表 一 个 特定 的 属性 。 此 结构 
像 矩阵 ， 但 又 不 是 矩阵 ， 因 为 每 列 的 元 素 很 可 能 是 不 同类 型 的 。 形 式 上 和 矩阵 里 的 所 有 元 素 























都 是 来 自 一 个 域 的 (如 实数 、 二 进 制 数 、 复 数 等 )。 但 对 于 统计 学 来 说 ， 和 矩阵 的 限制 
格 了 ， 因 为 统计 方面 的 一 个 样本 往往 是 多 个 不 同类 型 的 值 的 混合 。 











太 严 


R 2-1 样 例 中 的 第 1 个 属性 列 是 实数 ， 第 两 个 属性 列 是 类 别 变量 〈 属 性 )， 第 3 个 属性 











列 是 整数 。 在 一 个 列 内 ， 所 有 元 素 的 取 值 都 是 同一 类 型 ， 但 是 列 与 列 之 间 是 不 同 的 。 














数据 框 ， 可 以 通过 索引 (index) 的 方式 访问 具体 某 个 元 素 ， 类 似 Python 中 访问 一 个 Numpy 


数组 或 二 维 数组 中 的 元 素 (element)。 类 似 地 ， 采 用 索引 切片 (index slicing) 可 以 访问 











整 行 


或 整 列 ， 而 且 在 Pandas 数据 框 中 ， 可 以 通过 名 字 来 访问 行 或 列 。 这 对 于 小 规模 或 中 等 规律 的 
数据 是 十 分 方便 的 (搜索 “Pandas introduction” 会 找到 关于 使 用 Pandas 的 入 门 指导 的 链接 )。 





如 何 从 UC Irvine 数据 仓库 网 站 读 取 “ 岩 石 vs. 水 雷 ”数据 的 CSV 文件 如 代码 清 
所 示 。 这 里 的 输出 只 是 完整 输出 中 的 一 部 分 。 自 行 运行 代码 就 可 以 获得 完整 输出 。 
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代码 清单 2-5 用 Python Pandas 读 入 数据 、 分 析 数 据 - pandasReadSummarizer.py 


, author = 'mike bowles' 

import pandas as pd 

from pandas import DataFrame 

import matplotlib.pyplot as plot 

target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 


rocksVMines - pd.read csv(target url,header-None, prefix-"V") 





fprint head and tail of data frame 
print (rocksVMines.head()) 


print (rocksVMines.tail()) 

#print summary of data frame 
summary = rocksVMines.describe() 
print (summary) 


Output (truncated): 


VO V1 V2 odds V57 v58 v59 v60 
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.0200 
.0453 
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.0428 
.0843 
.1099 
.0623 
.0481 


[5 rows x 61 columns] 
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VO 
.0187 
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V1 
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coun 
mean 
std 
min 
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读 入 数据 后 


签 ， 所 有 的 尾数 据 痢 有 M 标 签 。 对 于 这 个 数据 集 ， 
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， 程 序 第 一 部 分 首先 打印 头 数 据 和 尾数 据 。 注 意 到 所 有 的 头 数据 都 及 标 





分 是 M 标 签 的 (水雷)。 








代码 打印 输出 实数 属性 列 的 统计 信息 。 

自动 计算 出 均值 、 方 差 、 
因此 可 以 自动 化 属性 值 的 筛选 过 程 以 发 现 异 常 
同一 属性 列 ， n no bbs 


Pandas 可 以 
A) 本 身 就 是 一 个 数据 框 ， 
同 分 位 数 之 间 的 差异 。 对 于 
点 。 这 就 值得 进一步 探究 这 些 异 常 点 牵扯 到 多 少 和 
这 些 都 需要 仔细 分 析 。 


存在 异常 











少量 的 ,i 

















第 一 部 分 是 尺 标签 的 (岩石 )， 第 二 音 








在 分 析 数 据 时 首先 要 注意 到 此 类 信息 。 在 后 续 章 节 中 会 看 到 ， 确 
定 模 型 的 优 劣 有 时 需要 对 数据 进行 取样 。 那 么 取样 就 需要 考虑 到 数据 的 存储 结构 。 最 后 的 





分 位 数 。 由 于 describe 函数 输出 的 总 结 (统计 信 





TRE 


点 。 可 以 比较 不 


常 点 涉及 的 数据 
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2.3 对 “岩石 vs. 水 雷 ” 数 据 集 属性 的 可 视 化 展示 
这 个 有 时 是 很 难 通 过 表格 的 形式 把 握 到 的 。 此 节 





可 视 化 可 以 提供 对 数据 的 直观 感受 ， 














将 介绍 很 有 用 的 可 视 化 方法 。 分 类 问题 和 回归 问题 的 可 视 化 会 有 所 不 同 。 在 








数据 集 的 章节 中 看 到 回归 问题 的 可 视 化 方法 。 


2.3.1 利用 平行 坐标 图 进行 可 视 化 展示 
对 于 具有 多 个 属性 问题 的 一 种 可 视 化 方法 叫 作 平 行 坐标 图 (parallel coordinates plot). 


























鲍鱼 和 红酒 

















图 2-2 为 平行 坐标 图 的 基本 样式 。 图 右边 的 向 量 ([1 3 2 4]) 代表 数据 集中 某 一 行 属性 的 











值 。 这 个 向 量 的 平行 坐标 图 如 图 2-2 中 
的 折线 所 示 。 这 条 折线 是 根据 属性 的 索 
引 值 和 属性 值 画 出 来 的 。 整 个 数据 集 的 
平行 坐标 图 对 于 数据 集中 的 每 一 行 属性 
都 有 对 应 的 一 条 折线 。 基 于 标签 对 折线 
标示 不 同 的 颜色 ， 更 有 利于 观测 到 属性 
值 与 标签 之 间 的 关系 。( 在 Wikipedia 输 
入 “parallel coordinates” 会 检索 出 更 多 
的 例子 。) 
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代码 清单 2-6 展示 了 如 何 获得 “ 兰 
石 vs. IKE” 数据 集 的 平行 坐标 图 。 图 2-3 
为 结果 。 折 线 根据 对 应 的 标签 赋予 不 同 
的 颜色 : R (a) 是 蓝 色 ，M OKE) 





是 红色 。 有 时 候 图 画 出 来 后 标签 (类别 ) 之 间 可 以 很 明显 地 区 分 








属性 1 — 属性 2 — mis ”属性 4 
A A A 
4 
3 
"E 
i 
1 
1 2 3 4 
索引 
图 2-2 ”平行 坐标 图 





























HK. ANY "SEEK 








据 集 ” 类 别 之 间 就 可 以 很 明显 地 区 分 出 来 ， 这 就 是 机 器 学 习 算法 进行 分 类 应 该 达到 的 效果 。 


对 应 “岩石 vs. 水雷” 数据 集 则 看 不 到 明显 的 区 分 。1 























日 是 有 些 区 域 蓝 色 和 红色 的 折线 是 分 


开 的 。 沿 着 图 的 底部 ， 蓝 色 的 线 要 突出 一 点 儿 ， 在 属性 索引 30 ~ 40 之 间 ， 蓝 色 的 线 多 
少 要 比 红色 的 线 高 一 些 。” 这 些 观 察 将 有 助 于 解释 和 确认 某 些 预测 的 结 





代码 清单 2-6 ”实数 值 属性 的 可 视 化 : 平行 坐标 图 - linePlots.py 


, author = 'mike bowles' 
import pandas as pd 


from pandas import DataFrame 

















^ 建议 读者 自行 运行 代码 ， 观 宕 输出 的 彩色 平行 坐标 图 ， 























题 。 一 一 译 者 注 。 








就 可 以 看 到 文中 








所 述 的 效果 。 





下 面 的 医 








例 也 有 同样 的 问 
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import matplotlib.pyplot as plot 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 





rocksVMines - pd.read csv(target url,header-None, prefix-"V") 


for i in range (208): 


#assign color based on "M" or "R" labels 


if rocksVMines.iat[i,60] == "M": 
pcolor = "red" 

else: 
pcolor = "blue" 


#plot rows of data as if they were series data 
dataRow = rocksVMines.iloc[i,0:60] 


dataRow.plot (color=pcolor) 


plot.xlabel ("Attribute Index") 
plot.ylabel (("Attribute Values") ) 
plot.show() 
































图 2-3 “岩石 vs. 水雷” 数据 集 属性 的 平行 坐标 








区 
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2.3.2 属性 和 标签 的 关系 可 视 化 

另外 一 个 需要 了 解 的 问题 就 是 属性 之 间 的 关系 。 获 得 这 种 成 对 关系 的 快速 方法 就 是 
庆 属 性 与 标签 的 交会 图 (cross-plots) 。 代 码 清单 2-7 BERT MURS A ELE 
图 。 这 些 交会 图 〈 又 叫 作 散 点 图 ，scatter plots) 展示 了 这 些 属性 对 之 间 关 系 的 密切 程度 。 





E 








代码 清单 2-7 属性 对 的 交会 图 -corrPlot.py 


, author = 'mike bowles' 

import pandas as pd 

from pandas import DataFrame 

import matplotlib.pyplot as plot 

target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 


rocksVMines - pd.read csv(target url,header-None, prefix-"V") 





#calculate correlations between real-valued attributes 
dataRow2 = rocksVMines.iloc[1,0:60] 
dataRow3 = rocksVMines.iloc[2,0:60] 


plot.scatter(dataRow2, dataRow3) 
plot.xlabel("2nd Attribute") 
plot.ylabel(("3rd Attribute")) 
plot.show() 

dataRow21 = rocksVMines.iloc[20,0:60] 
plot.scatter(dataRow2, dataRow21) 
plot.xlabel("2nd Attribute") 


plot.ylabel(("21st Attribute")) 
plot.show() 


图 2-4 和 图 2-5 HRA “AA vs. 水 雷 ” 数 据 集 的 两 对 属性 的 散 点 图 。 岩石 vs. 水 雷 ” 
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数据 集 的 属性 是 声 纳 返回 的 取样 值 。 声 纳 返回 的 信号 又 叫 咽 嗽 信号 ， 因 为 它 是 一 个 脉冲 
言 号 ， 开 始 在 低频 ， 然 后 上 升 到 高 频 。 这 个 数据 集 的 属性 就 是 声波 由 岩石 或 水 雷 反 射 回来 
的 时 间 上 的 取样 。 这 些 返回 的 声学 信号 携带 的 时 间 与 频率 的 关系 与 发 出 的 信号 是 一 样 的 。 
数据 集 的 60 个 属性 是 返回 的 信号 在 60 个 不 同时 间 点 的 取样 (因此 是 60 个 不 同 的 频率 )。 
你 可 能 会 佑 计 相 邻 的 属性 会 比 隔 一 个 的 属性 更 相关 ， 因 为 在 相 邻 时 间 上 的 取样 在 频率 上 的 
差别 应 该 不 大 。 





















































图 2-4 
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第 21 个 属性 
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2-5 “岩石 vs. 水雷 ”数据 集 第 2 个 属性 与 第 21 个 属性 的 交会 图 
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这 种 直观 感受 在 图 2-4 和 图 2-5 中 得 到 了 证 实 。 图 2-4 中 的 点 要 比 图 2-5 中 的 点 更 





集中 于 一 








条 直线 。 如 果 想 进一步 了 解数 值 相 关 和 散 点 图 的 形状 两 者 之 间 的 关系 ， 请 在 








wikipedia 搜索 “correlation (相关 ) ”相关 页 面 。 基 本 上 ,如 果 散 点 图 上 的 点 治 着 一 条 “ 瘦 ” 











直线 排列 ， 则 说 明 这 两 个 变量 强 相 关 ， 如 果 这 些 点 形成 一 个 球 型 ， 则 说 明 这 些 点 不 相关 。 
应 用 同样 原则 ， 可 以 画 出 任何 一 个 属性 与 最 终 目 标 (标签 ) 的 散 点 图 ， 研 究 两 者 之 间 
的 相关 性 。 若 对 应 目标 是 实数 (回归 问题 ) , 则 画 出 的 散 点 图 会 与 图 2-4 和 图 2-5 十 分 相似 。 






































“岩石 vs. 水 雷 ” 数 据 集 是 一 个 分 类 问题 ， 目 标 是 二 值 的 ， 但 是 遵循 同样 的 步骤。 








代码 清 


单 2-8 展示 如 何 画 出 标签 和 第 35 个 属性 的 散 点 图 。 为 什么 选用 第 35 个 属性 作 








为 展示 属性 三 








与 标签 关系 的 例子 ， 灵 感 来 自 于 平行 坐标 图 2-3。 这 个 平行 坐标 图 显示 岩石 数 


据 与 水 雷 数据 在 属性 索引 值 35 左右 有 所 分 离 。 则 标签 与 索引 值 35 附近 的 属性 的 关系 也 
应 该 显示 这 种 分 离 ， 正 如 图 2-6 和 图 2-7 所 示 。 





代码 清单 2-8 ”分 类 问题 标签 和 实数 值 属性 之 间 的 相关 性 -targetCorr.py 


, author  - 'mike bowles' 


import 


pandas as pd 


from pandas import DataFrame 


import 


matplotlib.pyplot as plot 


from random import uniform 


target 


url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 





rocksVMines - pd.read csv(target url,header-None, prefix-"V") 


fchange the targets to numeric values 


target 


= [1] 


for i in range (208): 


#assign 0 or 1 target value based on "M" or "R" labels 


if 


else: 


rocksVMines.iat[i,60] == "M": 


target.append(1.0) 


target.append(0.0) 


#plot 35th attribute 
dataRow = rocksVMines.iloc[0:208,35] 





plot.scatter(dataRow, target) 


40 | 第 2 章 通过 理解 数据 来 了 解 问题 


plot.xlabel ("Attribute Value") 
plot.ylabel ("Target Value") 
plot.show() 


# 

#To improve the visualization, this version dithers the points a little 
# and makes them somewhat transparent 

target = [] 


for i in range(208): 


#assign 0 or 1 target value based on "M" or "R" labels 


# and add some dither 


if rocksVMines.iat[i,60] == "M": 
target.append(1.0 + uniform(-0.1, 0.1)) 


else: 





target.append(0.0 + uniform(-0.1, 0.1)) 


#plot 35th attribute with semi-opaque points 
dataRow = rocksVMines.iloc[0:208,35] 





plot.scatter(dataRow, target, alpha-0.5, s-120) 


plot.xlabel("Attribute Value") 
plot.ylabel("Target Value") 
plot.show() 


如 果 把 M 用 1 代表 ，R 用 0 代表 ， 就 会 得 到 如 图 2-6 所 示 的 散 点 图 。 在 图 2-6 中 
可 以 看 到 一 个 交会 图 常见 的 问题 。 当 其 中 一 个 变量 只 取 有 限 的 几 个 值 时 ， 很 多 点 会 
合 在 一 起 。 如 果 这 种 点 很 多 ， 则 只 能 看 到 很 粗 的 一 条 线 ， 分 辨 不 出 这 些 点 是 如 何 沿 线 
分 布 的 。 

代码 清单 2-8 产生 了 第 二 图 ， 通 过 2 个 小 技巧 克服 了 上 述 的 问题 。 每 个 点 都 加 上 一 个 
小 的 随机 数 ， 产 生 了 少量 的 离散 值 (这 里 是 对 标签 值 进行 了 处 理 )。 标 签 值 最 初 是 0 或 1。 
在 代码 中 可 以 看 到 ， 标 签 值 加 上 了 一 个 在 -0.1 和 0.1 之 间 均 匀 分 布 的 随机 数 ， 这 样 就 把 
些 点 分 散 开 ， 但 是 又 不 至 于 把 这 2 条 线 混淆 。 此 外 ， 这 些 点 绘制 时 取 alpha=0.5， 这 样 
些 点 就 是 半 透 明 的 。 那 么 在 散 点 图 中 若 多 个 点 落 在 一 个 位 置 就 会 形成 一 个 更 黑 的 区 域 ， 
时 需要 对 数据 做 一 些微 调 使 你 能 看 到 你 想 看 到 的 。 
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生 交 会 图 














图 2-6 标签 - 属 1 











这 两 种 方法 的 效果 如 图 2-7 所 示 。 可 以 注意 到 第 35 个 属性 在 左上 方 的 点 更 加 集中 一 
些 ， 然 而 在 下 面 的 数据 从 右 到 左 分 布 得 更 加 均匀 些 。 上 方 的 数据 对 应 水 雷 的 数据 。 下 面 
的 数据 对 应 岩石 的 数据 。 由 图 观察 可 知 ， 可 以 因此 建立 一 个 分 类 器 ， 判 断 第 35 个 属性 是 
否 大 于 或 小 于 0.5。 如 果 大 于 0.5， 就 判断 为 岩石 ， 如 果 小 于 0.5， 就 判断 为 水 雷 。 在 第 35 
个 属性 值 小 于 0.5 的 实例 中 ， 水 雷 的 分 布 要 更 密集 ， 而 且 在 属性 值 小 于 0.5 的 实例 中 ， 岩 
石 的 分 布 要 稀 玻 得 多 。 这 样 就 可 以 获得 一 个 比 随 机 猜测 好 些 的 结果 。 






































属性 值 











图 2-7 ”经 过 扰动 和 半 透明 处 理 的 标签 - 属性 区 
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在 第 5 章 和 第 7 章 将 会 看 到 更 系统 的 构建 分 类 器 的 方法 。 它 们 会 用 到 所 有 的 属性 ， 而 不 仅仅 是 
一 、 二 个 属性 。 当 看 到 它们 是 如 何 做 决策 时 ， 可 以 回头 看 看 本 章 的 例子 就 会 理解 为 什么 它们 的 选 


择 是 明智 的 。 
两 个 属性 (或 一 个 属性 、 一 个 标签 ) 的 相关 程度 可 以 由 皮尔 逮 相关 系数 (Pearson's 


correlation coefficient) 来 量化 。 给 定 2 个 等 长 的 向 量 w 和 vw (如 公式 2-1 和 公式 2-2 所 示 )。 
首先 w 的 所 有 元 素 都 减 去 4 的 均值 ( 见 公式 2-3)。 对 v 也 做 同样 的 事情 。 








u 
u, 
u=. 
u, 
公式 2-1 eu 的 元 素 
u — avg(u) 
公式 2-2 meu 的 均值 
uu 
u,-u 
Au = : 
u,-u 


























公式 2-3 ”向 量 w 中 每 个 元 素 都 减 去 均值 























以 向 量 Au 相同 的 定义 方式 ， 对 应 第 二 个 向 量 v， 定 义 向 量 Av。 
则 w 和 v 之 间 的 皮尔 森 相 关系 数 如 公式 2-4 所 示 。 








Au! * Av 


A (Au? * Au) * (Av" * Ay) 





corr(u,v) — 





公式 2-4 ”皮尔 森 相 关系 数 定义 


代码 清单 2-9 展示 了 用 该 函数 计算 图 2-3 和 图 2-5 中 属性 对 的 相关 系数 。 相 关系 数 和 
图 中 展示 的 结果 一 致 ， 索 引 值 距离 比较 近 的 属性 间 相 关系 数 也 比较 高 。 
































代码 清单 2-9 对 属性 2 和 属性 3、 属 性 2 和 属性 21 分 别 计 算 各 自 的 皮尔 森 相 关系 
数 -corrCalc.py 


, author = 'mike bowles' 


import pandas as pd 





2.3 ”对 “岩石 vs. 水 雷 ” 数 据 集 属性 的 可 视 化 展示 | 43 


from pandas import DataFrame 

from math import sqrt 

import sys 

target_url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 


rocksVMines - pd.read csv(target url,header-None, prefix-"V") 





fcalculate correlations between real-valued attributes 
dataRow2 = rocksVMines.iloc[1,0:60] 

dataRow3 = rocksVMines.iloc[2,0:60] 

dataRow21 = rocksVMines.iloc[20,0:60] 


mean2 = 0.0; mean3 = 0.0; mean21 = 0.0 


numElt = len(dataRow2) 








for i in range (numElt): 











mean2 += dataRow2[i]/numElt 
mean3 += dataRow3[i]/numElt 
mean21 += dataRow21[i]/numElt 


var2 = 0.0; var3 = 0.0; var21 = 0.0 


for i in range (numElt): 











var2 += (dataRow2[i] - mean2) * (dataRow2[i] - mean2)/numElt 
var3 += (dataRow3[i] - mean3) * (dataRow3[i] - mean3)/numElt 
var21 += (dataRow21[i] - mean21) * (dataRow21[i] - mean21)/numElt 





corr23 = 0.0; corr221 = 0.0 


for i in range (numElt): 








corr23 += (dataRow2[i] - mean2) * \ 
(dataRow3[i] - mean3) / (sqrt(var2*var3) * numElt) 
corr221 += (dataRow2[i] - mean2) * \ 
(dataRow21[i] - mean21) / (sqrt(var2*var21) * numElt) 





sys.stdout.write ("Correlation between attribute 2 and 3 Mn") 
print (corr23) 

sys.stdout.write(" Mn") 

sys.stdout.write ("Correlation between attribute 2 and 21 Mn") 


print (corr221) 
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sys.stdout.write(" \n") 


Output: 
Correlation between attribute 2 and 3 
0.770938121191 


Correlation between attribute 2 and 21 
0.466548080789 


2.3.3 AHE (heat map ) 展示 属性 和 标签 的 相关 性 

对 于 计算 少量 的 相关 性 ， nM A a EET 但 是 对 
于 大 量 的 数据 ， 就 很 难 用 这 种 方法 整体 把 握 相 关 性 。 如 果 问 题 有 100 以 上 的 属性 ， 则 很 
难 把 散 点 图 压缩 到 一 页 。 

获得 大 量 属性 之 间 相 关 性 的 一 种 方法 就 是 计算 出 每 对 属性 的 皮尔 森 相 关系 数 后 ， 将 相 
关系 数 构 成 一 个 矩阵 ， 和 矩阵 的 第 j-th 个 元 素 对 应 第 i 个 属性 与 第 j 个 属性 的 相关 系数 ， 然 
后 把 这 些 和 矩阵 元 素 画 到 热 图 上 。 代 码 清单 2-10 为 热 图 的 代码 实现 。 图 2-8 就 是 这 种 热 图 。 
沿 着 和 斜 对 角 线 的 浅 色 区 域 证 明 索 引 值 相近 的 属性 相关 性 较 高 。 正 如 上 文 提 到 的 ， 这 与 数据 
We 索引 相近 说 明 是 在 很 短 的 时 间 间 隔 内 取样 的 ， 因 此 声 纳 信号 的 频率 也 接 

， 频 率 相近 说 明 目 标 (标签 ) 也 类 似 。 





















































代码 清单 2-10 ”属性 相关 系数 可 视 化 -sampleCorrHeatMap.py 


, author = 'mike bowles' 

import pandas as pd 

from pandas import DataFrame 

import matplotlib.pyplot as plot 

target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


#read rocks versus mines data into pandas data frame 


rocksVMines - pd.read csv(target url,header-None, prefix-"V") 





#calculate correlations between real-valued attributes 


corMat = DataFrame(rocksVMines.corr()) 


#visualize correlations using heatmap 
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plot.pcolor (corMat) 
plot.show() 








2-8 ”展示 属性 对 相关 性 的 热 图 














属性 之 间 如 果 完 全 相关 (相关 系数 =1) 意味 着 数据 可 能 有 和 错误， 如 同样 的 数据 录入 
两 次 。 多 个 属性 间 的 相关 性 很 高 (相关 系数 >0.7)， 即 多 重 共 线 性 (multicollinearity), 4 
往 会 导致 预测 结果 不 稳定 。 属 性 与 标签 的 相关 性 则 不 同 ， 如 果 属 性 和 标签 相关 ， 则 通常 意 
味 着 两 者 之 间 具有 可 预测 的 关系 。 


2.3.4 对 “岩石 vs. 水雷” 数据 集 探 究 过 程 小 结 

在 探究 “岩石 vs. 水 雷 ” 数 据 集 的 过 程 中 ， 本 节 介 绍 了 一 系列 的 工具 ， 以 加 深 对 数据 
集 的 理解 和 直观 感受 。 本 节 已 深入 细节 ， 如 这 些 工具 的 来 源 、 用 法 等 。 下 节 将 用 同样 的 工 
具 来 分 析 后 续 机 器 学 习 算 法 用 到 的 其 他 数据 集 。 因 为 这 些 工 具 都 已 介绍 过 ， 下 一 节 将 只 介 
绍 因为 问题 的 不 同 ， 而 对 工具 所 做 的 改变 。 
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2.4 ”基于 因素 变量 的 实数 值 预测 : 鲍鱼 的 年 龄 

探测 未 爆炸 的 水 雷 数据 集 的 工具 同样 可 以 用 于 回归 问题 。 在 给 定 物理 测量 值 的 情况 下 ， 
预测 鲍鱼 的 年 龄 就 是 此 类 问题 的 一 个 实例 。 鲍 鱼 的 属性 中 包括 因素 属性 ， 下 面 将 说 明 属性 
中 含有 因素 属性 后 与 上 例 有 什么 不 同 。 

鲍鱼 数据 集 的 问题 是 根据 某 些 测量 值 预 测 鲍鱼 年 龄 。 当 然 可 以 对 鲍鱼 进行 切片 ， 然 后 
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数 年 轮 获 得 鲍鱼 年 龄 的 精确 值 ， 就 像 通 过 数 树 的 年 轮 得 到 树 的 年 龄 一 样 。 但 是 问题 是 这 种 方 
法 代价 比较 大 ， 耗 时 (需要 在 显微镜 下 数 年 轮 )。 因 此 更 方便 经 济 的 方法 是 做 些 简 单 的 测量 ， 
如 鲍鱼 的 长 度 、 宽 度 、 重 量 等 指标 ， 然 后 通过 一 个 预测 模型 对 其 年 龄 做 相对 准确 的 预测 。 预 测 
分 析 有 大 量 的 科学 应 用 ,学 习 机 器 学 习 的 一 个 好 处 就 是 可 以 将 其 应 用 到 一 系列 很 有 趣 的 问题 上 。 
鲍鱼 数据 集 可 以 从 UC Irvine 数据 仓库 中 获得 ， 其 URL 是 http://archive.ics.uci.edu/ml/ 
machine-learning-database/abalone/abalone.data。 此 数据 集 数 据 以 逗号 分 隔 ， 没 有 列 头 。 每 
个 列 的 名 字 存 在 另外 一 个 文件 中 。 代 码 清单 2-11 将 鲍鱼 数据 集 读 入 Pandas 数据 框 ， 然 后 
进行 分 析 ， 这 些 分 析 与 “分 类 问题 : 用 声 纳 探测 未 爆炸 的 水 雷 ” 节 中 的 一 样 。 由 数据 的 
性 质 决定 的 ,“ 宕 石 vs. 水 雷 ” 数 据 集 的 列 名 (属性 名 ) 更 加 通用 。 为 了 能 够 从 直觉 上 判 
断 提 出 的 预测 模型 是 否 可 接受 ， 理 解 鲍鱼 数据 集 各 个 列 名 (属性 名 ) 的 意义 是 十 分 重 
要 的 。 因 此 ， 在 代码 中 将 列 名 (属性 名 ) 直接 拷贝 到 代码 中 ， 与 相关 的 数据 绑 定 在 一 起 ， 
帮助 直接 感受 下 一 步 机 器 学 习 算法 应 该 怎么 预测 。 建 立 预测 模型 所 需 的 数据 包括 性 别 、 长 
度 、 直 径 、 高 度 、 整 体重 量 、 去 壳 后 重量 、 脏 器 重量 、 壳 的 重量 、 环 数 。 最 后 一 列 “ 环 数 ” 
是 十 分 耗 时 采 获 得 的 ， 需 要 锯 开 过 ， 然 后 在 显微镜 下 观察 得 到 。 这 是 一 个 有 监督 机 器 学 习 
方法 通常 需要 的 准备 工作 。 基 于 一 个 已 知 答案 的 数据 集 构建 预测 模型 ， 然 后 用 这 个 预测 模 
型 预测 不 知道 答案 的 数据 。 

代码 清单 2-11 不 仅 展 示 了 产生 统计 信息 的 代码 ， 而 且 展 示 了 打印 输出 的 统计 信息 。 
第 一 部 分 打印 数据 集 的 头 和 尾 。 为 了 节省 空间 只 显示 了 头 。 当 你 自己 运行 代码 时 ， 就 可 
以 看 到 全 部 的 输出 。 绝 大 多 数 数据 框 中 的 数据 是 浮 点 数 。 第 一 列 是 性 别 ， 标 记 为 M ( 雄 
性 )、F OEE) 和 I (不 确定 的 )。 鲍 鱼 的 性 别 在 出 生 时 是 不 确定 的 ， 成 熟 一 些 之 后 才能 
确定 。 因 此 对 于 小 的 鲍鱼 其 性 别 是 不 确定 的 。 鲍 鱼 的 性 别 是 一 个 三 值 的 类 别 变量 。 类 
别 属性 需要 特别 注意 。 一 些 算法 只 能 处 理 实数 值 的 属性 (如 支持 向 量 机 (support vector 
machines), K 最 近邻 、 惩 罚 线性 回归 ， 这 些 将 在 第 4 章 介 绍 )。 第 4 章 会 讨论 把 类 别 属 
性 转换 成 实数 值 属性 的 技巧 。 代 码 清单 2-11 还 展示 了 实数 值 属 性 按 列 的 统计 信息 。 





































































































































































































代码 清单 2-11 鲍鱼 数据 集 的 读 取 与 分 析 -abaloneSummary.py 


_ author = 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
from pylab import * 

import matplotlib.pyplot as plot 


target url = ("http://archive.ics.uci.edu/ml/machine-" 


"learning-databases/abalone/abalone.data") 
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#read abalone data 


abalone = pd.read_csv(target_url,header=None, prefix="V") 





abalone.columns = ['Sex', 'Length', 'Diameter', 'Height', 
'Whole weight','Shucked weight', 'Viscera weight', 
'Shell weight', 'Rings'] 


print (abalone.head()) 
print (abalone.tail()) 


#print summary of data frame 
summary = abalone.describe() 


print (summary) 


#box plot the real-valued attributes 
#convert to array for plot routine 
array = abalone.iloc[:,1:9].values 
boxplot (array) 
plot.xlabel("Attribute Index") 
plot.ylabel(("Quartile Ranges")) 


show() 


#the last column (rings) is out of scale with the rest 
f - remove and replot 

array2 = abalone.iloc[:,1:8].values 

boxplot (array2) 

plot.xlabel("Attribute Index") 

plot.ylabel(("Quartile Ranges")) 


show() 





fremoving is okay but renormalizing the variables generalizes better. 
frenormalize columns to zero mean and unit standard deviation 

#this is a common normalization and desirable for other operations 

# (like k-means clustering or k-nearest neighbors 


abaloneNormalized = abalone.iloc[:,1:9] 


for i in range(8): 
mean = summary.iloc[1, i] 


sd = summary.iloc[2, i] 
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abaloneNormalized.iloc[:,i: 
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(i + 1)] = 


( 


abaloneNormalized.iloc[:,i:(i + 1)] = mean) / sd 
array3 = abaloneNormalized.values 
boxplot (array3) 
plot.xlabel("Attribute Index") 
plot.ylabel(("Quartile Ranges - Normalized ")) 
show () 
Printed Output: (partial) 
Sex Length Diameter Height Whole wt Shucked wt Viscera wt 
0 0.455 0.365 0.095 0.5140 0.2245 0.1010 
1 0.350 0.265 0.090 0.2255 0.0995 0.0485 
2 E 0.530 0.420 0.135 0.6770 0.2565 0.1415 
3 0.440 0.365 0.125 0.5160 0.2155 0.1140 
4 I 0.330 0.255 0.080 0.2050 0.0895 0.0395 
Shell weight Rings 
0 0.150 LS 
1 0.070 7 
2 0.210 9 
3 0.155 10 
4 0.055 7 
Sex Length Diameter Height Whole weight Shucked weight 
4172 F 05565 0.450 0.165 0.8870 0.3700 
4173 M 0.590 0.440 0.135 0.9660 0.4390 
4174 M 0.600 0.475 0.205 1.1760 0.5255 
4175 F 0.625 0.485 0.150 1.0945 05310 
4176 M 0.710 0.555 0.195 1.9485 0.9455 
Viscera weight Shell weight Rings 
4172 0.2390 0.2490 11 
4173 0.2145 0.2605 10 
4174 0.2875 0.3080 9 
4175 0.2610 0.2960 10 
4176 0.3765 0.4950 12 
Length Diameter Height Whole wt Shucked wt 
count 4177.000000 4177.000000 4177.000000 4177.000000 4177.000000 
mean 0.523992 0.407881 0.139516 0.828742 0.359367 


std 
min 
25% 
50% 
75$ 


max 


count 
mean 
std 
min 
25$ 
50$ 
75$ 


max 


不 仅 可 以 列 出 统计 信息 ， 还 可 以 像 代 码 清 单 
第 一 个 箱 线 图 如 图 2-9 所 示 。 箱 线 图 
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图 、 盒 状 图 。 这 些 图 显示 了 一 个 小 长 方形 ， 有 一 个 红线 穿 
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图 2-9 鲍鱼 数据 集 
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分 位 数 (或 者 第 一 四 分 位 数 、 第 三 四 分 位 数 )。 可 以 比较 打印 出 来 的 统计 信息 和 箱 线 图 中 
的 线段 来 证 实 这 一 点 。 在 盒子 的 上 方 和 下 方 有 小 的 水 平 线 ， 叫 作 盒 须 (whisker)。 它 们 分 
别 据 盒子 的 上 边 和 下 边 是 四 分 位 间距 的 1.4 倍 ， 四 分 位 间距 就 是 第 75 百 分 位 数 和 第 25 百 
分 位 数 之 间 的 距离 ， 也 就 是 从 盒子 的 项 边 到 盒子 底 边 的 距离 。 也 就 是 说 盒子 上 面 的 盒 须 到 
盒子 顶 边 的 距离 是 盒子 高 度 的 1.4 倍 。 这 个 盒 须 的 1.4 倍 距离 是 可 以 调整 的 ， 详 见 箱 线 图 
的 相关 文档 。 在 有 些 情况 下 ， 盒 须要 比 1.4 倍 距 离 近 ， 这 说 明 数 据 的 值 并 没有 扩散 到 原 定 计 
算出 来 的 盒 须 的 位 置 。 在 这 种 情况 下 ， 盒 须 被 放 在 最 极端 的 点 上 。 在 另外 一 些 情况 下 ， 数 
据 扩散 到 远 远 超出 计算 出 的 盒 须 的 位 置 (L4 们 盒子 高 度 的 距离 )， 这 些 点 被 认为 是 异常 点 。 

图 2-9 所 示 的 箱 线 图 是 一 种 比 打印 出 数据 更 快 、 更 直接 的 发 现 异 常 点 的 方法 ， 但 是 最 
后 一 个 环 数 属性 (最 右边 的 盒子 ) 的 取 值 范围 导致 其 他 属性 都 被 “压缩 ”了 (导致 很 难 
看 清楚 )。 一 种 简单 的 解决 方法 就 是 把 取 值 范 围 最 大 的 那个 属性 删除 。 结果 如 图 2-10 所 示 。 
这 个 方法 并 不 令 人 满意 ， 因 为 没有 实现 根据 取 值 范 围 自动 缩放 ( 自 适应 )。 
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图 2-10 ”鲍鱼 数据 集 实数 值 属 性 箱 线 医 














代码 清单 2-11 的 最 后 一 部 分 代码 在 画 箱 线 图 之 前 将 属性 值 归 一 化 (normalization) , 
此 处 的 归 一 化 指 确定 每 列 数据 的 中 心 ， 然 后 对 数值 进行 缩放 ， 使 属性 1 的 一 个 单位 值 与 属 
性 2 的 一 个 单位 值 相同 。 在 数据 科学 中 有 相当 数量 的 算法 需要 这 种 归 一 化 。 例 如 ,K-means 
聚 类 方法 是 根据 行 数据 之 间 的 向 量 距离 来 进行 聚 类 的 。 距 离 是 对 应 坐标 上 的 点 相 减 然后 取 
平方 和 。 单 位 不 同 ,算出 来 的 距离 也 会 不 同 。 到 一 个 杂货 店 的 距离 以 英里 为 单位 是 1 英里 ， 
以 英尺 为 单位 就 是 5 280 英尺 。 代 码 清 单 2-11 中 的 归 一 化 是 把 属性 数值 都 转换 为 均值 为 0、 
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标准 差 为 1 的 分 布 。 这 是 最 通用 的 归 一 化 。 归 一 化 计算 用 到 了 函数 summary() 的 结果 。 归 
一 化 后 的 效果 如 图 2-11 所 示 。 
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E 2-11 ” 归 一 化 鲍鱼 数据 集 属性 的 箱 线 图 


注意 归 一 化 到 标准 差 1.0 并 不 意味 着 所 有 的 数据 都 在 71.0 和 +1.0 之 间 。 盒 子 的 顶 边 
和 底 边 多 少 都 会 在 -1.0 和 +1.0 附近 ， 但 是 还 有 很 多 数据 在 这 个 边界 外 。 























2.4.1 回归 问题 的 平行 坐标 图 : 鲍鱼 问题 的 变量 关系 可 视 化 

下 一 步 是 看 属性 之 间 、 属 性 与 标签 之 间 的 关系 。 对 于 “岩石 vs. 水雷” 数据 集 ， 加 颜 
色 的 平行 坐标 图 以 图 形 化 方式 展示 了 这 两 种 关系 。 针 对 鲍鱼 问题 ， 上 述 方法 需要 做 些 修 
IE, AA vs. 水 雷 是 分 类 问题 。 平 行 坐标 图 对 于 此 类 问题 ， 折 线 代表 了 一 行 数据 ， 折 线 的 
颜色 表明 了 其 所 属 的 类 别 。 这 有 利于 可 视 化 属性 和 所 属 类 别 之 间 的 关系 。 鲍 鱼 问 题 是 一 
个 回归 问题 ， 应 该 用 不 同 的 颜色 来 对 应 标签 值 的 高 低 。 也 就 是 实现 由 标签 的 实数 值 到 颜 
色 值 的 映射 ， 需 要 将 标签 的 实数 值 压 缩 到 [0.0,1.0] 区 间 。 代 码 清单 2-12 由 函数 summary() 
获得 最 大 、 最 小 值 实现 这 种 转换 。 结 果 如 图 2-12 所 示 。 





























代码 清单 2-12 ”鲍鱼 数据 的 平行 坐标 图 -abalonParallelPlot.py 


__author = 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
import matplotlib.pyplot as plot 


from math import exp 
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target url = ("http://archive.ics.uci.edu/ml/machine-" 
"learning-databases/abalone/abalone.data") 


#read abalone data 





abalone = pd.read_csv(target_url,header=None, prefix="V") 
abalone.columns = ['Sex', 'Length', 'Diameter', 'Height', 
'Whole Wt', 'Shucked Wt', 
'Viscera Wt', 'Shell Wt', 'Rings'] 


#get summary to use for scaling 


summary = abalone.describe() 
minRings = summary.iloc[3,7] 
maxRings = summary.iloc[7,7] 
nrows = len(abalone.index) 


for i in range (nrows): 
#plot rows of data as if they were series data 
dataRow = abalone.iloc[i,1:8] 
labelColor = (abalone.iloc[i,8] - minRings) / (maxRings - minRings) 


dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha=0.5) 


plot.xlabel("Attribute Index") 
plot.ylabel(("Attribute Values")) 
plot.show() 


frenormalize using mean and standard variation, then compress 
# with logit function 
meanRings = summary.iloc[1,7] 


sdRings = summary.iloc[2,7] 


for i in range (nrows): 
#plot rows of data as if they were series data 
dataRow = abalone.iloc[i,1:8] 
normTarget = (abalone.iloc[i,8] - meanRings) /sdRings 
labelColor = 1.0/(1.0 + exp(-normTarget)) 
dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha=0.5) 


plot.xlabel("Attribute Index") 
plot.ylabel(("Attribute Values")) 
plot.show() 
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图 2-12 的 平行 坐标 图 为 鲍鱼 年 龄 〈 壳 的 环 数 ) 和 用 于 预测 年 龄 的 属性 之 间 的 关系 。 
折线 使 用 的 颜色 标尺 从 深 红 标 色 、 黄 色 、 浅 蓝 色 一 直到 深蓝 色 。 图 2-11 的 箱 线 图 显示 整 
个 数据 集 的 最 大 值 和 最 小 值 分 布 十 分 广泛 。 图 2-12 有 压缩 的 效果 ， 导 致 绝 大 多 数 的 数据 
都 分 布 在 颜色 标尺 的 中 间 部 分 。 尽 管 如 此 ， 图 2-12 还 是 能 够 显示 每 个 属性 和 目标 环 数 的 
相关 性 。 在 属性 值 相近 的 地 方 ， 折 线 的 颜色 也 比较 接近 ， 则 会 集中 在 一 起 。 这 些 相 关 性 
都 暗示 可 以 构建 相当 准确 的 预测 模型 。 相 对 于 那些 体现 了 良好 相关 性 的 属性 和 目标 环 数 ， 
有 些微 弱 的 蓝 色 折 线 与 深 权 色 的 区 域 混合 在 一 起 ,说 明 有 些 实例 可 能 很 难 正确 预测 。 



































0.0 庆 一 
长 度 直径 mE ”整体 重量 去 过 后 重量 脏 器 重量 壳 的 重量 
属性 索引 








图 2-12 鲍鱼 数据 集 的 彩色 平行 坐标 医 


























改变 颜色 映射 关系 可 以 从 不 同 的 层面 来 可 视 化 属性 与 目标 之 间 的 关系 。 代 码 清单 2-11 
的 最 后 一 部 分 用 到 了 箱 线 图 中 用 过 的 归 一 化 。 此 归 一 化 不 是 让 所 有 的 值 都 落 到 0 和 1 之 间 。 
首先 让 取 负 值 的 数据 与 取 正 值 的 数据 基本 上 一 样 多 。 代 码 清单 2-11 中 使 用 分 对 数 变换 (logit 
transform) 实现 数值 到 (0,1) 的 映射 。 分 对 数 变换 如 公式 2-5 所 示 , 分 对 数 函数 如 图 2-13 所 示 。 














logit transform(x) 21/(1 e) 
公式 2-5 ”分 对 数 转换 公式 
如 图 2-13 所 示 , 分 对 数 函 数 将 很 大 的 负数 映射 成 0 (Bear), 很 大 的 正 数 映 射 成 1 ( 接 


近 )，0 映射 成 0.5。 在 第 4 章 还 会 看 到 分 对 数 函 数 ， 在 将 线性 函数 与 概率 联系 起 来 它 起 
到 了 关键 的 作用 。 
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0 5 0 5 10 
图 2-13 ”分 对 数 函 数 
图 2-14 为 归 一 化 之 后 的 结果 。 转 换 后 可 以 更 充分 地 利用 颜色 标尺 中 的 各 种 颜色 。 注 
意 到 针对 整体 重量 和 去 壳 后 的 重量 这 两 个 属性 ， 有 些 深蓝 的 线 (对 应 具有 大 环 数 的 品种 ) 
混入 了 浅 蓝 线 的 区 域 ， 其 至 是 黄色 、 亮 红 的 区 域 。 这 意味 着 ， 当 鲍鱼 的 年 龄 较 大 时 ， 仪 
仪 这 些 属性 不 足以 准确 地 预测 出 鲍鱼 的 年 龄 ( 环 数 )。 好 在 其 他 属性 (如 直径 、 索 的 重量 ) 
可 以 很 好 地 把 深蓝 线 区 分 出 来 。 这 些 观察 都 有 助 于 分 析 预 测 错误 的 原因 。 
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2-14 ”鲍鱼 数据 的 平行 坐标 图 














24 ”基于 因素 变量 的 实数 值 预测 : 鲍鱼 的 年 龄 





55 





2.4.2 回归 问题 如 何 使 用 关联 热 图 一 一 鲍鱼 问题 的 属性 对 关系 的 可 视 化 

最 后 一 步 是 看 不 同属 性 之 间 的 相关 性 和 属性 与 目标 之 间 的 相关 性 。 代 码 清单 2-13 为 
针对 鲍鱼 数据 产生 关联 热 图 和 关系 矩阵 的 代码 。 遵 循 的 方法 与 “岩石 vs. 水 雷 ” 数 据 集 相 
应 章节 里 的 方法 一 样 ， 只 有 一 个 重要 差异 : 因为 鲍鱼 问题 是 进行 实数 值 预测 ， 所 以 在 计 
算 关 系 和 矩阵 时 可 以 包括 目标 值 。 


代码 清单 2-13 ”鲍鱼 数据 的 相关 性 计算 -abaloneCorrHeat.py 

















, author = 'mike bowles' 
import pandas as pd 
from pandas import DataFrame 


import matplotlib.pyplot as plot 


target url - ("http://archive.ics.uci.edu/ml/machine-" 
"learning-databases/abalone/abalone.data") 


#read abalone data 





abalone = pd.read_csv(target_url,header=None, prefix="V") 
abalone.columns = ['Sex', 'Length', 'Diameter', 'Height', 
"Whole weight', 'Shucked weight', 
'Viscera weight', 'Shell weight', 'Rings'] 


#calculate correlation matrix 
corMat = DataFrame(abalone.iloc[:,1:9].corr()) 
#print correlation matrix 


print (corMat) 


#visualize correlations using heatmap 


plot.pcolor (corMat) 


plot.show() 

Length Diameter Height Whole Wt  Shucked Wt 
Length 1.000000 0.986812 0.827554 0.925261 0.897914 
Diameter 0.986812 1.000000 0.833684 0.925452 0.893162 
Height 0.827554 0.833684 1.000000 0.819221 0.774972 
Whole weight 0.925261 0.925452 0.819221 1.000000 0.969405 
Shucked weight 0.897914 0.893162 0.774972 0.969405 1.000000 
Viscera weight 0.903018 0.899724 0.798319 0.966375 0.931961 
Shell weight 0.897706 0.905330 0.817338 0.955355 0.882617 
Rings 0.556720 0.574660 0.557467 0.540390 0.420884 
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Viscera weight Shell 
Length 0.903018 
Diameter 0.899724 
Height 0.798319 
Whole weight 0.966375 
Shucked weight 0.931961 
Viscera weight 1.000000 
Shell weight 0.907656 
Rings 0.503819 


C» FS O O O c cC 


weight 


.897706 
.905330 
.817338 
4955355 
.882617 


907656 


.000000 
.627574 


Rings 


.556720 
.574660 
.557467 
.540390 
.420884 


503819 


.627574 
.000000 


图 2-15 为 关联 热 图 。 在 图 2-15 中 ， 红 色 代 表 强 相关 ， 蓝 色 代 表 弱 相关 。 目 标 GE 
上 环 数 ) 是 最 后 一 项 ， 即 关联 热 图 的 第 一 行 和 最 右 列 。 蓝 色 说 明 这 些 属性 与 目标 弱 相 关 。 
浅 蓝 对 应 目标 与 壳 的 重量 的 相关 性 。 这 个 结果 与 在 平行 坐标 图 看 到 的 一 致 。 如 图 2-15 所 





























示 ， 在 偏离 对 角 线 的 单元 内 ， 红 棕色 的 值 代 表 这 些 属性 相互 高 度 相 关 。 这 多 少 与 平行 坐 





标 图 的 结论 有 些 矛 盾 ， 因 为 在 平行 坐标 图 中 ， 目 标 与 属性 的 一 致 性 是 相当 强 的 。 代 码 清 





单 2-13 展示 了 具体 的 关联 值 。 








图 2-15 鲍鱼 数据 的 关联 热 








D3 








在 此 小 节 看 到 如 何 将 用 于 分 类 问题 (岩石 vs. 水 雷 ) 的 工具 修改 后 用 于 回归 问题 。 修 
改 主要 来 源 于 这 两 类 问题 的 本 质 差 别 : 回归 问题 标签 是 实数 值 ， 而 二 元 分 类 问题 的 标签 
是 二 值 变量 。 下 节 将 采用 同样 的 手段 来 分 析 全 部 是 数值 属性 的 回归 问题 。 因为 是 回归 问题 ， 
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可 以 采用 鲍鱼 数据 分 析 同 样 的 工具 。 因 为 所 有 属性 都 是 数值 型 ， 分 析 时 可 以 包含 所 有 的 属 
性 ， 如 计算 相关 性 时 。 
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红酒 口感 数据 集 包括 将 近 1 500 种 红酒 的 数据 。 每 一 种 红酒 都 有 一 系列 化 学 成 分 的 测 
量 指标 ， 包 括 酒精 合 量 、 挥 发 性 酸 、 亚 硝酸 其。 每 种 红酒 都 有 一 个 口感 评分 值 ， 是 三 个 专 
业 评 酒 员 的 评分 的 平均 值 。 问 题 是 构建 一 个 预测 模型 ， 输 入 化 学 成 分 的 测量 值 ， 预 测 口感 
评分 值 ， 使 之 与 评 酒 员 的 评分 一 致 。 

代码 清单 2-14 为 获得 红酒 数据 集 统 计 信息 的 代码 。 代 码 打印 输出 数据 集 的 数值 型 统 
计 信息 ， 在 代码 清单 的 最 后 部 分 可 以 看 到 。 代 码 还 产生 了 归 一 化 属性 的 箱 线 图 ， 可 以 直观 
发 现 数据 集中 的 异常 点 。 图 2-16 为 箱 线 图 。 数 值 型 统计 信息 和 箱 线 图 都 显示 含有 大 量 的 
边缘 点 。 在 对 此 数据 集 进 行 训练 时 要 记 住 这 一 点 。 当 分 析 预 测 模型 的 性 能 时 ， 这 些 边 缘 点 
很 可 能 就 是 分 析 模 型 预测 错误 的 一 个 重要 来 源 。 



























































代码 清单 2-14 ”红酒 数据 统计 信息 -wineSummary.py 


__author  - 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
from pylab import * 

import matplotlib.pyplot as plot 


target_url = ("http://archive.ics.uci.edu/ml/machine-" 
"learning-databases/wine-quality/winequality-red.csv") 
wine = pd.read_csv(target_url,header=0, sep=";") 


print (wine.head()) 


#generate statistical summaries 





summary = wine.describe() 


print (Summary) 


wineNormalized = wine 


ncols = len(wineNormalized.columns) 


for i in range(ncols): 


mean = summary.iloc[1, i] 
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sd = 


wineNormalized.iloc[:,i: 


array = 
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(wineNormalized.iloc[:,i: 


summary.iloc[2, 


i] 


wineNormalized.values 


boxplot (array) 
plot.xlabel("Attribute Index") 


plot.ylabel(("Quartile Ranges - Normalized ")) 


show () 


Output - 


(i *1)] = \ 
(i + 1)] 


[filename - wineSummary.txt] 


- mean) 


/ sd 


fixed acidity volatil acid citric acid resid sugar chlorides 
dig 


BW NH F Oo 


free sulfur dioxide tot 


BPW NYO F Oo 


1 


7.4 
7.8 
7.8 
1.2 
7.4 


alcohol quality 


BPW No F Oo 


count 
mean 
std 
min 
25$ 
50$ 
75% 


max 


9. 
.8 
.8 
.8 
.4 


9 
9 
9 
9 


4 


5 
5 
5 
6 


5 
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25 
15 
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11 


0. 
.88 
.76 
.28 
.70 


0 
0 
0 
0 


70 


0. 
.00 
.04 
.56 
.00 


0 
0 
0 
0 


00 


sulfur dioxide density 


34 
67 
54 
60 
34 


0. 
.9968 
4.9970 
.9980 
.9978 


0 
0 
0 
0 


9978 


2 
24 
工 
1 


WWW U Ww 


9 


6 
3 
9 
9 


0 . 
.098 
.092 
«075 
.076 


0 
0 
0 
0 


076 


pH sulphates 
vol 
20 
.26 
.16 
-51 


0. 


0 
0 
0 
0 
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.68 
.65 
.58 
.56 


fixed acidity volatile acidity citric acid residual sugar 
000000 
270976 


ao won a 4^ FP CO 


1599.000000 


319637 
- 741096 
- 600000 
. 100000 
- 900000 
- 200000 
- 900000 


1599. 
.527821 
.179060 
.120000 
- 390000 
- 520000 
- 640000 
- 580000 


H O co c CO CO C 


000000 1599. 
0. 
0.194801 
0.000000 
0. 
0 
0 
1 


090000 


- 260000 
- 420000 
- 000000 


15 


99: 
25 


T 


1 
0 
1 
25 
2 
5 


000000 
538806 


.409928 
.900000 
.900000 


200000 


.600000 
.500000 
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chlorides free sulfur dioxide tot sulfur dioxide density 
count 1599.000000 1599.000000 1599.000000 1599.000000 
mean 0.087467 15.874922 46.467792 0.996747 
std 0.047065 10.460157 32.895324 0.001887 
min 0.012000 1.000000 6.000000 0.990070 
25$ 0.070000 7.000000 22.000000 0.995600 
50$ 0.079000 14.000000 38.000000 0.996750 
75$ 0.090000 21.000000 62.000000 0.997835 
max 0.611000 72.000000 289.000000 1.003690 
pH sulphates alcohol quality 
count 1599.000000 1599.000000 1599.000000 1599.000000 
mean 3.311113 0.658149 10.422983 5.636023 
std 0.154386 0.169507 1.065668 0.807569 
min 2.740000 0.330000 8.400000 3.000000 
25$ 3.210000 0.550000 9.500000 5.000000 
50$ 3.310000 0.620000 10.200000 6.000000 
75% 3.400000 0.730000 11.100000 6.000000 
max 4.010000 2.000000 14.900000 8.000000 


12 


10} 


四 分 位 间距 一 归 一 化 
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图 2-16” 归 一 化 红酒 数据 的 属性 与 目标 箱 线 
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加 入 颜色 标记 的 平行 坐标 图 更 易于 观察 属性 与 目标 的 相关 程度 。 代 码 清单 2-15 为 生 





60 | 第 2 章 通过 理解 数据 来 了 解 问题 


成 平行 坐标 图 的 代码 。 图 2-17 为 平行 坐标 图 。 图 2-17 的 主要 不 足 在 于 对 取 值 范围 较 小 的 
变量 进行 了 压缩 。 
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2-17 红酒 数据 的 平行 坐标 图 





























为 了 克服 这 个 问题 ， 代 码 清单 2-15 对 红酒 数据 进行 了 归 一 化 ， 然 后 重 画 了 平行 坐标 
图 2-18 为 归 一 化 之 后 的 平行 坐标 图 。 














代码 清单 2-15 ”红酒 数据 的 平行 坐标 图 - wineParallelPLot.Py 


author = 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
from pylab import * 

import matplotlib.pyplot as plot 


from math import exp 
target url = "http://archive.ics.uci.edu/ml/machine-learning-databases/ 
wine-quality/winequality-red.csv" 


wine = pd.read csv(target url,header-0, sep=";") 


#generate statistical summaries 
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summary = wine.describe() 

nrows = len(wine.index) 

tasteCol = len(summary.columns) 
meanTaste = summary.iloc[1,tasteCol - 1] 
sdTaste = summary.iloc[2,tasteCol - 1] 
nDataCol = len(wine.columns) -1 


for i in range (nrows): 
#plot rows of data as if they were series data 
dataRow = wine.iloc[i,1:nDataCol] 
normTarget - (wine.iloc[i,nDataCol] - meanTaste)/sdTaste 
labelColor = 1.0/(1.0 + exp(-normTarget)) 
dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha=0.5) 


plot.xlabel("Attribute Index") 
plot.ylabel(("Attribute Values")) 


plot.show() 
wineNormalized = wine 
ncols = len(wineNormalized.columns) 


for i in range (ncols): 
mean = summary.iloc[1, i] 
sd = summary.iloc[2, i] 
wineNormalized.iloc[:,i:(i + 1)] = 


(wineNormalized.iloc[:,i:(i + 1)] - mean) / sd 


#Try again with normalized values 
for i in range (nrows): 
#plot rows of data as if they were series data 
dataRow = wineNormalized.iloc[i,1:nDataCol] 
normTarget = wineNormalized.iloc[i,nDataCol] 
labelColor = 1.0/(1.0 + exp(-normTarget) ) 
dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha=0.5) 


plot.xlabel ("Attribute Index") 
plot.ylabel (("Attribute Values") ) 
plot.show() 








TU 
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归 一 化 红酒 数据 的 平行 坐标 图 可 以 更 方便 地 观察 出 目标 与 哪些 属性 相关 。 图 2-18 











展示 了 属性 间 清 晰 的 相关 性 。 在 图 的 最 右边 ，; 
含量 属性 的 高 值 区 域 ， 但 是 图 的 最 左边 ， 深 红线 CK E 
属性 的 高 值 区 域 。 这 些 都 是 最 明显 的 相关 属性 。 在 第 5 GR 












































RER (高 口感 评分 值 ) 聚集 在 酒精 
分 值 ) 聚集 在 挥发 性 酸 
[第 7 章 的 预测 模型 中 将 


会 对 属性 基于 对 预测 所 做 的 贡献 进行 评分 ， 我们 会 看 到 预测 模型 是 如 何 支 撑 上 述 这 些 








观察 结果 的 。 
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图 2-19 为 属性 之 间 、 属 性 与 目标 之 间 的 关联 热 图 。 在 这 个 热 图 中 ， 暧 色 对 应 强 相 关 


(颜色 标尺 的 选择 与 平行 坐标 图 中 的 正好 相反 )。 











红酒 数据 的 关联 热 图 显示 口感 评分 值 (最 


后 一 列 ) 与 酒精 含量 (倒数 第 二 列 ) 高 度 正 相关 ， 但 是 与 其 他 几 个 属性 (包括 挥发 性 酸 等 ) 











高 度 负 相关 。 
分 析 红 酒 数据 所 用 的 工具 在 前 面 都 已 经 介 
以 揭示 的 信息 。 平 行 坐标 图 和 关联 热 图 都 说 明 








高 则 口感 评分 值 低 。 在 第 5、 第 7 章 可 以 看 到 ， 
属性 对 预测 的 重要 性 。 红 酒 数据 集 就 是 一 个 很 好 的 例子 ， 展 示 了 如 何 通过 探究 数据 来 知 




















绍 和 使 用 过 。 





酒精 含量 高 





红酒 数据 集 展 示 了 这 些 工 具 可 





则 口感 评分 值 高 ， 然 而 挥发 性 酸 
预测 模型 中 的 一 部 分 工作 就 是 研究 各 种 











晓 向 从 哪个 方向 努力 来 构建 预测 模型 以 及 如 何 评价 预测 模型 。 下 节 将 探究 多 类 别 分 类 问 


题 的 数据 集 。 
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2-19 红酒 数据 的 关联 热 图 


2.6 多 类 别 分 类 问题 : 它 属于 哪 种 玻璃 


多 类 别 分 类 问题 与 二 元 分 类 问题 类 似 ， 不 同 之 处 在 于 它 有 几 个 离散 的 输出 ， 而 不 是 只 
有 两 个 。 回 顾 探测 未 爆炸 的 水 雷 的 问题 ， 它 的 输出 上 只 有 两 种 可 能 性 : 声 纳 探测 的 物体 是 
岩石 或 者 水 雷 。 而 红酒 口感 评分 问题 根据 其 化 学 成 分 会 产生 几 个 可 能 的 输出 〈 其 口感 评分 
值 是 从 3 分 到 8 分 )。 但 是 对 于 红酒 口感 评分 问题 ， 口 感 评分 值 存在 有 序 的 关系 。 打 5 分 
的 红酒 要 好 于 打 3 分 的 ， 但 是 要 劣 于 打 8 分 的 。 对 于 多 类 别 分 类 问题 ， 输 出 结果 是 不 存在 
这 种 有 序 关系 的 。 

此 节 将 根据 玻璃 的 化 学 成 分 来 判断 玻璃 的 类 型 ， 目 标 是 确定 玻璃 的 用 途 。 玻 璃 的 用 途 
包括 建筑 房间 用 玻璃 、 车 辆 上 的 玻璃 、 玻 璃 容器 等 。 确 定 玻璃 的 用 途 类 型 是 为 了 鉴证 。 例 
如 在 一 个 车 祸 或 犯罪 现场 ， 会 有 玻璃 的 碎片 ， 确 定 这 些 玻璃 碎片 的 用 途 、 来 源 ， 有 助 于 确 
定 谁 是 过 错 方 或 者 谁 是 罪犯 。 代 码 清单 2-16 为 生成 玻璃 数据 集 的 统计 信息 的 代码 。 图 2-20 
为 归 一 化 玻璃 数据 的 箱 线 图 ， 箱 线 图 显示 有 相当 数量 的 异常 点 。 








代码 清单 2-16 ”玻璃 数据 集 的 统计 信息 -glassSummary.py 


_ author_ = 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
from pylab import * 

import matplotlib.pyplot as plot 
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target url = ("https://archive.ics.uci.edu/ml/machine-" 


"learning-databases/glass/glass.data") 


glass = pd.read_csv(target_url,header=None, prefix="V") 
glass.columns = ['Id', "RI"; 'Na', 'Mg', 'Al', 'Si', 
UNS "ats 'Ba', 'Fe', 'Type'] 





print(glass.head()) 


#generate statistical summaries 
summary = glass.describe() 
print(summary) 


ncoll = len(glass.columns) 
glassNormalized = glass.iloc[:, 1:ncoll] 
ncol2 = len(glassNormalized.columns) 


summary2 = glassNormalized.describe() 


for i in range (ncol2): 


mean = summary2.iloc[1, i] 
sd = summary2.iloc[2, i] 
glassNormalized.iloc[:,i:(i + 1)] = \ 
(glassNormalized.iloc[:,i:(i + 1)] - mean) / sd 


array = glassNormalized.values 

boxplot (array) 

plot.xlabel ("Attribute Index") 
plot.ylabel(("Quartile Ranges - Normalized ") ) 


show () 


Output: [filename - ] 
print (glass.head() ) 


Id RI Na Mg Al Si K Ca Ba Fe Type 
01 1.52101 13.64 4.49 1.10 71.78 0.06 8.75 0 O0 1 
12 1.51761 13.89 3.60 1.36 72.73 0.48 7.83 0 -0 1 
23 1.51618 13.53 3.55 1.54 72.99 0.39 7.78 U P 1 
3.4 1.51766 13.21 3.69 1.29 72.61 0.57 8.22 0 O 1 
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4.5 1.57742 13.27 3.62 1.24. 73.08. 0.55 8,07 0 0 1 











print (summary) - Abridged 

Id RI Na Mg Al 
count 214.000000 214.000000 214.000000 214.000000 214.000000 
mean 107.500000 518365 13.407850 2.684533 1.444907 
std 61.920648 0.003037 0.816604 1.442408 0.499270 
min 1.000000 1.511150 10.730000 0.000000 0.290000 
25$ 54.250000 1.516523 12.907500 2.115000 1.190000 
50$ 107.500000 517680 13.300000 3.480000 1.360000 
75$ 160.750000 519157 13.825000 3.600000 1.630000 
max 214.000000 1.533930 17.380000 4.490000 3.500000 

K Ca Ba Fe Type 
count 214.000000 214.000000 214.000000 214.000000 214.000000 
mean 0.497056 8.956963 0.175047 0.057009 2.780374 
std 0.652192 1.423153 0.497219 0.097439 2.103739 
min 0.000000 5.430000 0.000000 0.000000 1.000000 
25$ 0.122500 8.240000 0.000000 0.000000 1.000000 
50$ 0.555000 8.600000 0.000000 0.000000 2.000000 
75% 0.610000 9.172500 0.000000 0.100000 3.000000 
max 6.210000 16.190000 3.15000 0 0.510000 7.000000 


四 分 位 间距 一 归 一 化 
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2-20 ”玻璃 数据 的 箱 线 





D3 








66 | 第 2 章 通过 理解 数据 来 了 解 问题 











玻璃 数据 的 箱 线 图 显示 有 相当 数量 的 异常 点 ， 至 少 与 前 面 的 例子 相 比 ， 异 常 点 数量 上 


是 比较 多 的 。 玻 璃 数据 集 
属性 值 和 类 别 之 间 不 需要 

















有 几 个 因素 可 能 会 导致 出 现 异常 点 。 首 先 这 是 一 个 分 类 问题 ， 在 
存在 任何 连续 性 ， 也 就 是 说 不 应 期 望 在 各 种 类 别 之 间 ， 属 性 值 是 


























相互 接近 的 、 近 似 的 。 另 外 一 个 玻璃 数据 比较 独特 的 地 方 是 它 的 数据 是 非 平衡 的 。 成 员 最 
多 的 类 有 76 个 样本 ， 而 成 员 最 小 的 类 只 有 9 个 样本 。 统 计时 ， 平 均值 可 能 是 由 成 员 最 多 





的 那个 类 的 属性 值 决定 ， 
区 分 类 别 可 能 会 达到 较 好 
界 。 在 第 3 章 可 以 了 解 到 
生 更 复杂 的 决策 边界 。 而 














因此 不 能 期 望 其 他 的 类 别 也 有 相似 的 属性 值 。 采 取 激 进 的 方法 来 
的 结果 ,但 这 也 意味 着 预测 模型 需要 跟踪 不 同类 别 之 间 复 杂 的 边 
， 如 果 给 定 足 够 多 的 数据 ， 集 成 方法 可 以 比 惩罚 线性 回归 方法 产 
在 第 5、 第 7 章 可 以 看 到 哪 种 方法 可 以 获得 更 好 的 效果 。 





平行 坐标 图 可 能 对 此 数据 集 揭示 的 信息 更 多 。 图 2-21 为 其 平行 坐标 图 。 数 据 根据 输 


出 类 别 用 不 同 的 颜色 标记 





。 有 些 类 别 区 分 度 很 好 。 人 例如， 深蓝 色 的 线 聚 集 度 很 好 ， 在 某 些 





属性 上 与 其 他 类 别 的 区 分 度 也 很 好 。 深 蓝 的 线 在 某 些 属性 上 经 常 处 于 数据 的 边缘 ， 也 就 











是 说 , 是 这 些 属性 上 的 异常 点 。 浅 蓝 的 线 在 某 些 属性 上 也 与 深蓝 的 线 一 样 , 处 于 边缘 地 带 ， 

















但 是 数量 上 要 比 深蓝 的 少 ， 








而 且 两 者 都 在 边缘 地 带 时 的 所 属 的 属性 也 不 尽 相 同 。 棕 色 的 线 


聚集 性 也 很 好 ， 但 其 取 值 基本 上 在 中 心 附近 。 


四 分 位 间距 一 归 一 化 











2-21 玻璃 数据 的 平行 坐标 图 




















代码 清单 2-17 为 产生 玻璃 数据 的 平行 坐标 图 的 代码 。 针 对 岩石 vs. 水 雷 问 题 ， 平 行 坐 


标 图 的 线 用 2 种 颜色 代表 








了 2 种 目标 类 别 。 在 回归 问题 (红酒 口感 评分 、 鲍 鱼 预测 年 龄 )， 


标签 (目标 类 别 ) 取 实 数值 ,平行 坐标 图 的 线 取 一 系列 不 同 的 颜色 。 在 多 类 别 分 类 问题 中 ， 
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每 种 颜色 代表 一 种 类 别 ， 共 有 6 种 类 别 ，6 种 颜色 。 标 签 是 1 一 7， 没 有 4。 颜 色 的 选择 
与 回归 问题 中 的 方式 类 似 : 将 目标 类 别 (标签 ) 除 以 其 最 大 值 ， 然 后 再 基于 此 数值 选择 颜 
色 。 图 2-22 为 玻璃 数据 的 关联 热 图 。 关 联 热 图 显示 了 属性 之 间 绝 大 多 数 是 弱 相 关 的 ， 说 
明 属性 之 间 绝 大 多 数 是 相互 独立 的 ,这 是 件 好 事情 。 标 签 (目标 类 别 ) 没有 出 现在 热 图 中 ， 
因为 目标 (类别) 只 取 几 个 离散 值 中 的 一 个 。 不 包括 目标 类 别 无 疑 减少 了 关联 热 图 所 能 揭 
示 的 信息 。 
































代码 清单 2-17 ”玻璃 数据 的 平行 坐标 图 -glassParallelPlot.py 


_ author = 'mike bowles' 
import pandas as pd 

from pandas import DataFrame 
from pylab import * 

import matplotlib.pyplot as plot 


target url = ("https://archive.ics.uci.edu/ml/machine-" 


"learning-databases/glass/glass.data") 





glass = pd.read csv(target url,header-None, prefix-"V") 
glass.columns = ['Id', 'RI', 'Na', 'Mg', 'AIl', 'Si', 
UK Caty; Baty 'Fe', 'Type'] 


glassNormalized = glass 

ncols = len(glassNormalized.columns) 
nrows = len(glassNormalized.index) 
summary = glassNormalized.describe() 


nDataCol = ncols - 1 


#normalize except for labels 
for i in range(ncols - 1): 
mean = summary.iloc[1, i] 


sd = summary.iloc[2, i] 


glassNormalized.iloc[:,i:(i + 1)] = \ 


(glassNormalized.iloc[:,i:(i + 1)] - mean) / sd 


#Plot Parallel Coordinate Graph with normalized values 


for i in range (nrows): 
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#plot rows of data as if they were series data 

dataRow = glassNormalized.iloc[i,1:nDataCol] 

labelColor = glassNormalized.iloc[i,nDataCol]/7.0 
dataRow.plot(color-plot.cm.RdYlBu(labelColor), alpha=0.5) 


plot.xlabel("Attribute Index") 
plot.ylabel(("Attribute Values")) 
plot.show() 








图 2-22 玻璃 数据 的 关联 热 图 











对 玻璃 数据 的 研究 揭示 了 一 个 有 趣 的 问题 。 具 体 地 说 ， 箱 线 图 以 及 平行 坐标 图 暗示 了 
如 果 给 定 足 够 多 的 数据 ， 采 用 集成 方法 是 一 个 很 好 的 选择 。 一 系列 的 属性 用 来 区 分 一 个 
类 别 ,明显 类 别 之 间 会 有 复杂 的 边界 。 哪 种 算法 会 产生 最 佳 的 预测 性 能 还 有 待 进一步 观察 。 
本 章 学 习 的 分 析 数 据 的 方法 已 圆满 完成 了 任务 。 它 们 可 以 帮助 加 深 对 问题 的 理解 ,通过 各 
种 权衡 后 可 以 更 好 地 预 判 哪 种 算法 可 以 获得 较 好 的 性 能 。 











小 结 

本 章 介 绍 了 用 于 探究 新 数据 集 的 一 些 工 具 ， 接 下 来 就 是 如 何 建立 预测 模型 。 这 些 工 具 
从 简单 地 获取 数据 集 的 规模 开始 ， 包 括 确定 数据 集 属性 和 目标 的 类 型 等 。 这 些 关 于 数据 
集 的 基本 情况 会 对 数据 集 的 预 处 理 、 预 测 模 型 的 训练 提供 帮助 。 本 章 还 包括 一 些 统计 概念 ， 
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帮助 加 深 对 数据 的 理解 。 这 些 概 念 包括 : 简单 的 统计 信息 (均值 、 标 准 差 、 分 位 数 )、 二 
阶 统计 信息 ， 如 属性 间 的 相关 性 、 属 性 与 目标 间 的 相关 性 。 当 目标 是 二 值 时 ， 计 算 属 性 
与 目标 相关 性 的 方法 与 目标 是 实数 〈 回 归 问 题 ) 时 有 所 不 同 。 本 章 也 介绍 了 可 视 化 技巧 : 
利用 分 位 数 图 来 显示 异常 点 ， 利 用 平行 坐标 图 来 显示 属性 和 目标 之 间 的 相关 性 。 上 述 方 
法 和 技巧 都 可 以 应 用 到 本 书后 续 的 内 容 ， 用 来 验证 算法 以 及 算法 之 间 的 对 比 。 
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第 3 章 


预测 模型 的 构建 : 平衡 性 能 、 复 杂 性 以 及 大 数据 





章 讨 论 影响 机 器 学 习 模 型 效果 的 因素 ， 并 且 给 出 了 针对 不 同类 型 问题 的 性 能 定义 。 

比如 在 电子 商务 应 用 方面 ， 好 的 性 能 意味 着 返回 正确 的 搜索 结果 或 者 展示 网 站 访问 者 可 能 

会 点 击 的 广告 。 对 于 基因 问题 ,好 的 性 能 意味 着 发 现 与 遗传 现象 相关 的 基因 。 本 章 将 描述 

针对 不 同 问 题 的 相关 性 能 指标 。 

选择 并 拟 合 一 个 预测 算法 的 最 终 目标 是 获得 最 佳 可 能 的 效果 。 能 够 达到 的 性 能 取决 于 

3 方面 因素 : 问题 的 复杂 性 、 模 型 算法 的 复杂 性 以 及 可 用 的 数据 丰富 程度 。 本 章 将 通过 

一 些 可 视 化 的 例子 来 展示 问题 与 模型 复杂 度 的 关系 ， 并 给 出 一 些 在 设计 和 部 署 上 的 经 验 
方法 。 















































3.1 基本 问题 : 理解 函数 逼近 


本 书 涵盖 的 算法 解决 一 类 特定 的 预测 问题 。 这 类 预测 问题 包括 两 种 变量 : 

(1) 第 一 种 变量 是 尝试 要 预测 的 变量 (比如 网 站 的 访问 者 是 否 会 点 击 广告 这 样 的 变量 )。 

(2) 第 二 种 变量 是 用 来 进行 预测 的 变量 (比如 网 站 访问 者 在 人 口 统计 方面 的 背景 或 者 
访问 者 在 网 站 留 下 的 历史 访问 行为 这 样 的 变量 )。 

这 类 问题 称 作 函 数 逼 近 问 题 ， 因 为 目标 是 构建 以 第 二 类 变量 作为 输入 的 函数 来 预测 第 
一 类 变量 。 

在 一 个 函数 逼近 问题 中 ， 模 型 设计 者 一 般 是 从 带 有 标记 的 历史 样本 集合 开始 研究 。 例 
如 ， 网 络 日 志文 件 会 表明 访问 者 是 否 会 点 击 呈 现 的 广告 。 数 据 科 学 家 接着 要 从 中 找到 可 以 
用 于 构建 预测 模型 的 特征 。 例 如 ,为 了 预测 网 站 访问 者 是 否 会 点 击 广告 ， 数 据 科学 家 可 能 
尝试 使 用 访问 者 在 看 到 广告 前 浏览 过 的 其 他 页 面 。 如 果 用 户 在 网 站 注册 过 ， 那 么 历史 购买 
数据 或 网 页 浏览 记录 都 可 用 于 预测 。 

要 预测 的 变量 一 般 有 多 种 正式 名 称 ， 如 目标 、 标 签 、 结 果 。 用 于 构建 预测 的 输入 变量 
也 有 多 种 名 称 , 如 预测 因子 、 回 归 因 子 、 特 征 以 及 属性 。 这 些 词 在 下 文中 可 能 会 换 着 使 用 ， 
在 实际 应 用 中 也 不 互相 区 分 。 决 定 使 用 哪 种 属性 进行 预测 被 称 作 特征 工程 。 数 据 清洗 以 及 
特征 工程 占据 了 数据 科学 家 80% 一 90% 的 时 间 。 








— 
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特征 工程 一 般 需 要 通过 一 个 由 人 工 参 与 的 、 迭 代 的 过 程 来 完成 特征 选择 ， 决 定 可 能 最 
优 的 特征 ， 并 且 尝试 不 同 的 特征 组 合 。 本 书 涵盖 的 算法 将 为 每 个 属性 赋 一 个 重要 度 得 分 。 
这 些 得 分 表明 了 属性 在 构建 预测 时 的 相对 重要 性 ， 从 而 帮助 加 速 特征 工程 。 


3.1.1. 使 用 训练 数据 

数据 科学 家 往往 是 从 一 个 训练 集 开 始 进行 算法 开发 。 训 练 集 包括 结果 以 及 由 数据 科学 
家 选择 的 特征 集合 。 训 练 集 包 括 2 类 数据 : 

e 要 预测 的 结 

€ 用 于 预测 的 特征 

表 3-1 展示 了 训练 集中 的 一 个 样本 。 最 左 侧 一 列 为 实际 结果 (网 站 访问 者 是 否 点 击 了 
链接 )， 后 两 列 是 预测 访问 者 是 否 会 在 将 来 点 击 链接 的 特征 。 















































X 3-1 样 例 训练 集 
结果 : 是 否 点 击 链接 特征 1: 用 户 性 别 特征 2 : 用 户 在 网 站 上 的 花 销 特征 3 : 年 龄 
是 男 0 25 
8 女 250 32 
是 女 12 17 











预测 因子 ( 即 特征 、 属 性 等 ) 可 以 使 用 矩阵 的 形式 来 表示 〈 见 公式 3-1)。 本 书 约定 使 
用 的 记号 如 下 所 示 。 预 测 因子 构成 的 表 使 用 X 来 表示 。 








Xa Xp 7U Xy 
> X x 
21 X2 2 
X= f 
x 1 Xin2 Xn 




















公式 3-1 “预测 因子 ( 特征 ) 集合 的 表示 符号 








回 到 表 3-1 中 的 数据 集 ，xi 对 应 M (用 户 性 别 )，xis 对 应 0.00〈 网 站 上 的 花费 ) xa 
对 应 F (性 别 )， 等 等 。 
有 时 使 用 单个 符号 来 指 代 一 个 特定 样本 的 所 有 属性 会 很 方便 。 比 如 x (使 用 单个 索引 ) 
对 应 的 第 i 行 。 对 于 表 3-1 中 的 数据 集 ，x, 是 指 包含 值 F250,32 的 行 向 量 。 

严格 来 讲 ， 式 不 是 和 矩阵， 因为 预测 因子 的 数据 类 型 可 能 不 完全 相同 〈 一 个 合理 矩阵 包 
含 的 变量 需要 是 相同 类 型 ， 然 而 预测 因子 是 不 同类 型 ) 。 以 广告 点 击 预测 为 例 ， 预 测 因子 
可 能 包含 网 站 访问 者 的 人 口 背 景 数据 ， 如 婚姻 状态 、 年 收入 等 。 年 收入 是 个 实数 值 ， 婚 姻 
状态 是 一 个 类 别 变量 。 这 意味 着 婚姻 状态 并 不 能 进行 数值 运算 , 如 相 加 、 相 乘 , 并 且 单 身 、 



































3.1 基本 问题 ， 理解 函数 逼近 | 73 





结婚 、 离 异 也 不 存在 大 小 顺序 关系 。 对 于 式 中 的 列 ， 数 据 类 型 相同 ， 但 对 不 同 的 列 ， 数 
据 类 型 可 能 不 同 。 

对 于 婚姻 状态 、 性 别 或 者 居住 状态 这 类 属性 有 统一 的 名 称 ， 如 因子 属性 或 者 类 别 属性 。 
类 似 于 年 龄 或 者 收入 的 属性 称 作 数值 型 或 者 实数 型 属性 。 这 两 类 属性 区 别 很 重要 ， 因 为 一 
些 算法 可 能 只 能 处 理 其 中 的 一 类 属性 。 例 如 ， 线 性 方法 包括 本 书 提 到 的 算法 ， 需 要 使 用 
数值 属性 〈 第 4 章 涵盖 了 线性 方法 ， 介 绍 了 将 类 别 属性 转换 为 数值 属性 的 方法 ， 以 便 将 
线性 方法 应 用 到 包含 类 别 属性 的 问题 中 )。 

了 每 一 行 对 应 的 预测 目标 值 排 列 起 来 可 以 用 列 向 量 了 来 表示 (参见 公式 3-2)， 表 示 如 下 : 
























































公式 3-2 目标 向 量 的 表示 符号 

















预测 目标 y; 对 应 于 输入 x 即 凶 的 第 i 行 中 的 预测 结果 。 参 照 表 3-1 中 的 数据 ，y' 表 
TR “Re”, ER CU. 
预测 目标 也 可 能 有 多 种 数据 类 型 。 一 种 是 实数 类 型 ， 如 预测 消费 者 会 花 多 少 钱 。 当 预 
测 目标 是 实数 时 ,这 类 问题 称 作 回归 间 题 。 线 性 回归 是 指使 用 线性 方法 来 解决 回归 问题 (本 
书 同时 涵盖 了 线性 以 及 非 线 性 方法 )。 
如 果 预 测 目 标 只 包含 2 个 值 ， 如 表 3-1 所 示 ， 那 么 对 应 问题 称 作 2 分 类 问题 。 预 测 用 
户 是 否 会 点 击 广 告 是 一 个 2 分 类 问题 。 如 果 预 测 目标 包含 多 个 不 同 的 离散 值 ， 那 么 该 问题 
称 作 多 分 类 问题 。 在 有 多 个 广告 的 情况 下 ,预测 用 户 会 点 击 哪个 广告 就 是 一 个 多 分 类 问题 。 
回归 问题 的 目标 是 寻找 一 个 预测 函数 pred0， 该 函数 使 用 属性 来 预测 输出 结果 (参照 
公式 3-3), 





























y, ~ pred(x,) 





公式 3-3 ”构建 预测 的 基本 公式 








函数 pred() 使 用 属性 x; 来 预测 y;。 本 书 将 介绍 目前 几 种 构建 pred () 函数 的 最 佳 方法 。 


3.1.2 评估 预测 模型 的 性 能 

好 的 性 能 意味 着 使 用 属性 来 生成 一 个 接近 真实 ”的 预测 ， 这 种 “接近 ”对 不 同 问 
题 含义 不 同 。 对 于 回归 问题 ，” 是 一 个 实数 ， 性 能 使 用 均 方 误差 (MSE) 或 者 平均 绝对 误 
2: (MAE) 来 度量 (参见 公式 3-4) 。 
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Mean squared error = (=) S (y, — pred (x,) 
m i4 





公式 3-4 ”一 个 回归 问题 的 性 能 度量 

因为 在 一 个 回归 问题 中 ， 预 测 目标 Q) 以 及 预测 函数 输出 pred (x) 都 是 实数 ， 所 以 通 
过 它们 的 数值 差异 来 描述 错误 是 合理 的 。MSE 的 计算 公式 3-4 对 误差 求 平方 ， 然 后 平均 来 生 
成 对 错误 的 整体 度量 。MAE 对 误差 的 绝对 值 求 平均 (参照 公式 3-5) 而 不 是 对 误差 平方 求 平 均 。 





























1^» 
Mean absolute error — (+) È| y, - pred (x)| 
mjia 





公式 3-5 回归 性 能 的 另 一 种 度量 指标 














如 果 问 题 是 一 个 分 类 问题 ， 那 么 需要 使 用 不 同 的 性 能 指标 。 最 常用 的 性 能 指标 是 误 分 
类 率 ， 即 计算 predO 函数 预测 错误 的 样本 比例 。3.3.1“ 不 同类 型 问题 的 性 能 评价 指标 ” 介 
绍 了 如 何 计算 误 分 类 率 。 

对 于 预测 函数 pred0， 需 要 评估 其 在 新 样本 (未 见 过 的 ) 上 的 错误 程度 。 算 法 在 新 数 
据 上 (这些 数据 在 生成 预测 函数 pred) 时 并 没有 使 用 ) 的 表现 如 何 ? 本 章 将 介绍 用 于 评估 
算法 在 新 数据 上 性 能 的 最 佳 方法 。 

本 节 介 绍 了 预测 问题 的 基本 类 型 ， 曾 明 构建 预测 模型 为 何等 同 于 构建 将 属性 (或 者 特 
征 ) 映射 为 输出 的 函数 。 还 介绍 了 评估 预测 错误 的 方法 。 以 上 步 又 涉及 若干 难点 ， 下 面 内 
容 将 对 这 些 难点 一 一 描述 并 且 解 决 ， 介 绍 如 何在 问题 及 数据 限制 的 情况 下 达到 最 佳 效果 。 


3.2 ”影响 算法 选择 及 性 能 的 因素 一 一 复杂 度 以 及 数据 
有 几 个 因素 影响 预测 算法 的 整体 性 能 。 这 些 因 素 包括 问题 的 复杂 度 、 模 型 复杂 度 以 及 
可 用 的 训练 数据 量 。 下 面 将 介绍 这 些 因素 是 如 何 一 起 来 影响 预测 性 能 的 。 


3.2.1 简单 问题 和 复杂 问题 的 对 比 

前 面 小 节 的 内 容 介 绍 了 性 能 评估 的 几 种 方式 ， 强 调 模 型 在 新 数据 上 的 性 能 表现 更 为 重 
要 。 设 计 预 测 模 型 的 目标 是 在 新 样本 上 (如 网 站 新 用 户 ) 预测 准确 。 应 用 数据 科学 家 需要 
对 算法 性 能 进行 评估 ， 从 而 为 客户 提供 合理 的 期 望 并 且 对 算法 进行 比较 。 对 模型 进行 评估 
的 最 佳 经 验 是 从 训练 数据 集中 预 留 部 分 数据 。 

这 些 预 留 的 数据 包含 类 别 标签 ， 从 而 可 以 与 模型 生成 的 预测 结果 进行 比 对 。 统 计 学 家 
将 这 种 比 对 结果 称 作 样本 外 误差 ， 因 为 计算 误差 的 样本 并 没有 在 训练 中 用 到 (3.3 节 会 深 
人 讨论 该 过 程 的 运行 机 制 )。 记 住 只 有 在 新 样本 上 计算 得 到 的 性 能 才能 算是 模型 的 性 能 。 
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影响 性 能 的 一 个 因素 是 问题 复杂 度 。 图 3-1 展示 了 一 个 简单 的 2 分 类 问题 ， 输 入 包含 
2 个 维度 。 有 2 组 数据 点 : 深 色 的 点 和 浅 色 的 点 。 深 色 数 据点 是 随机 从 二 维 高 斯 分 布 中 抽样 ， 
中 心 在 (1,0), 方法 是 2 个 方向 的 单位 方差 。 浅 色 的 点 也 是 从 高 斯 分 布 中 抽样 ， 有 相同 的 
方差 但 是 中 心 在 (0,1)。 问 题 的 输入 属性 对 应 图 3-1 中 的 2 个 坐标 轴 : x 以 及 x。 分 类 
任务 对 应 于 在 ”mo 的 二 维 平面 上 画 一 条 分 界线 来 分 离 浅 色 点 以 及 深 色 点 。 在 这 种 情况 下 ， 
最 好 的 解决 方案 是 在 图 中 画 一 个 45 度 线 ， 即 xa, 的 直线 。 从 概率 意义 上 讲 ， 这 是 最 好 的 
分 类 器 。 因 为 一 条 直线 尽 可 能 地 分 离 了 浅 色 点 以 及 深 色 点 。 本 书 要 介绍 的 线性 方法 将 会 很 
好 地 解决 该 问题 。 



































3-1 一 个 简单 的 分 类 问题 














图 3-2 展示 了 一 个 更 加 复杂 的 问题 。 图 中 的 点 通过 随机 抽样 来 生成 。 与 图 3-1 中 的 随 
机 抽样 不 同 ， 图 3-2 中 的 点 从 多 个 浅 色 点 以 及 深 色 点 的 分 布 中 抽样 ， 这 种 生成 数据 的 模型 
被 称 作 混合 模型 。 不 过 这 两 个 问题 的 总 体 目标 是 相同 的 : FE x), os 的 平面 上 面 一 条 边界 
来 分 离 浅 色 点 与 深 色 点 。 在 图 3-2 中 ， 很 明显 一 条 线性 边界 不 能 将 点 分 离 ， 一 条 曲线 也 不 
能 分 离 。 第 6 章 中 提 到 的 集成 方法 可 以 很 好 地 解决 该 问题 。 

然而 决策 边界 的 复杂 性 并 不 是 唯一 决定 使 用 线性 方法 还 是 非 线性 方法 的 因素 。 另 一 个 
重要 因素 是 数据 集 的 大 小 。 图 3-3 展示 了 数据 集 大 小 对 性 能 的 影响 。 图 3-3 中 的 点 从 图 3-2 
中 抽样 得 到 ， 抽 样 比例 为 1%。 
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一 个 复杂 的 分 类 问题 





图 3-2 包含 充足 的 数据 ， 





3-3 X 











人 们 可 以 通 


太 多 数据 的 复杂 分 类 问题 


过 视觉 来 确定 边界 ， 这 些 边界 很 好 地 区 分 了 浅 色 
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点 以 及 深 色 点 。 如 果 没 有 这 么 多 数据 点 ， 不 同类 别 就 很 难 在 视觉 上 进行 区 分 ， 此 时 ， 相 
比 非 线性 模型 ， 一 个 线性 模型 可 以 给 出 相同 甚至 更 好 的 性 能 。 如 果 数 据 少 的 话 ， 边 界 很 
难 通 过 视觉 确定 ， 所 以 也 更 难 进 行 计算 。 本 例 通 过 图 像 展 示 了 数据 量 对 于 分 类 的 重要 性 。 
如 果 问 题 很 复杂 (如 对 不 同 购 物 者 提供 个 性 化 的 服务 )， 一 个 拥有 大 量 数 据 的 复杂 模型 可 
以 生成 精确 结果 。 然 而 ， 如 果真 实 模型 不 复杂 ( 见 图 3-1) 或 者 没有 足够 多 的 数据 CU 
图 3-3) ， 一 个 线性 模型 可 能 是 最 好 的 答案 。 


3.2.2 一 个 简单 模型 与 复杂 模型 的 对 比 

前 面 介绍 了 简单 问题 和 复杂 问题 在 视觉 上 的 差异 。 本 节 将 描述 能 够 解决 这 些 问题 的 不 同 
模型 是 如 何 工作 的 以 及 它们 之 间 的 差异 。 直 观 上 ， 一 个 复杂 的 模型 应 该 解决 复杂 的 问题 ， 但 是 
上 一 节 的 可 视 化 的 例子 表明 在 数据 有 限 情 况 下 ， 对 于 复杂 问题 ， 简 单 模型 可 能 要 好 于 复杂 模型 。 

另 一 个 重要 概念 是 现代 机 器 学 习 算 法 往往 生成 模型 族 ， 不 只 是 单个 模型 。 本 书 提 到 的 
每 个 算法 可 以 生成 成 百 上 千 个 不 同 的 模型 。 一 般 来 讲 ， 第 6 章 提 到 的 集成 方法 可 以 产生 比 
第 4 章 中 提 到 的 线性 方法 更 多 的 复杂 模型 ， 但 是 两 种 方法 都 可 以 生成 不 同 复 杂 度 的 多 个 模 
型 (通过 第 4 章 和 第 6 章 对 线性 方法 和 集成 方法 的 深入 讨论 ， 该 结论 会 更 加 清晰 )。 

图 3-4 为 上 一 章 中 用 于 拟 合 简单 问题 的 线性 模型 。 图 3-4 中 的 线性 模型 使 用 glmnet 算 
法 (第 4 章 会 提 到 ) 生成 。 拟 合 这 些 数据 的 线性 模型 将 数据 粗暴 地 分 为 2 份 。 图 3-4 中 的 
分 界线 对 应 于 公式 3-6。 
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x, = —0.01 + 0.99x, 























公式 3-6 ”适用 于 简单 问题 的 线性 模型 











该 分 界线 非常 接近 于 x=xi 的 分 界线 ， 从 概率 意义 上 讲 ，z=xi 是 最 佳 可 能 的 分 界线 。 
该 边界 从 视觉 角度 讲 也 是 合理 的 。 针 对 该 简单 问题 拟 合 一 个 更 加 复杂 的 模型 不 能 进一步 提 
升 预测 效果 。 

一 个 拥有 更 多 决策 边界 的 复杂 的 问题 为 复杂 模型 提供 了 超越 简单 线性 模型 的 机 会 。 
图 3-5 为 拟 合 数据 后 的 线性 模型 ， 线 性 模型 效果 表现 不 尽 人 意 ， 表 明 该 问题 实际 需要 非 线 
性 的 决策 边界 。 在 这 种 情况 下 ， 线 性 模型 会 将 浅 色 点 错 分 为 深 色 点 ， 反 之 亦 然 。 



































图 3-5” 拟 合 复杂 数据 的 线性 模型 
图 3-6 展示 了 复杂 模型 如 何 更 好 地 处 理 复杂 数据 。 用 于 生成 该 决策 边界 的 模型 是 一 个 
包含 1000 棵 二 分 类 决策 树 的 集成 模型 ， 该 模型 通过 梯度 提升 算法 训练 得 到 【〈 第 6 章 会 详 
细 介 绍 梯度 提升 决策 树 )。 非 线性 决策 边界 用 于 更 好 地 划分 深 色 和 浅 色 区 域 。 








虽然 倾向 于 得 到 如 下 结论 : 即 最 好 的 办 法 是 用 复杂 模型 解决 复杂 问题 ， 用 简单 模型 解 
决 简单 问题 ， 但 是 必须 考虑 问题 的 另 一 维度 。 正 如 在 前 面 章节 中 提 到 的 ， 必 须 考虑 数据 规 
模 ,图 3-7 以 及 图 3-8 为 从 复杂 问题 抽样 的 1% 的 数据 。 图 3-7 为 一 个 拟 合 数据 的 线性 模型 ， 
图 3-8 为 一 个 拟 合 数据 的 集成 模型 。 统计 误 分 类 的 点 数 ,目前 数据 集中 共有 100 个 点 。 图 3-7 
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中 的 线性 模型 误 分 类 了 11 个 点 , 错误 率 为 11%。 复 杂 模 型 误 分 类 了 8 个 点 , 错误 率 为 8%, 
它们 的 性 能 基本 一 样 。 








x 
-2 0 2 4 
X 
43-6 ” 拟 合 复杂 数据 的 集成 模型 
XR 








图 3-7 拟 合 少 量 复 杂 数据 样本 的 线性 模型 


80 | 第 3 章 预测 模型 的 构建 : 平衡 性 能 、 复 杂 性 以 及 大 数据 


3.2.3 


























E 3-8 拟 合 少 量 复 杂 数 据 的 集成 模型 





影响 预测 算法 性 能 的 因素 
上 面 结果 说 明了 大 数据 对 于 预测 的 重要 性 。 对 于 复杂 问题 进行 精确 预测 需要 大 量 数据 ， 








但 到 底 需 要 多 少数 据 其 实 很 难 准确 描述 。 数 据 的 分 布 形状 也 很 重要 。 





公式 3-1 将 数据 描绘 为 一 个 矩阵 ， 该 矩阵 包含 大 量 的 行 (高 ) 和 列 〈 宽 )。 和 矩阵 中 的 
元 素 个 数 是 行 数 与 列 数 的 乘积 。 当 数据 用 于 预测 模型 时 ， 行 数 与 列 数 的 多 少 会 对 预测 产生 
重要 有 影响。 添加 一 列 意味 着 添加 一 个 新 的 属性 ， 添 加 一 行 意味 着 添加 一 条 使 用 当前 属性 表 
示 的 新 样本 。 为 了 理解 添加 一 个 新 行 与 一 个 新 列 的 不 同 ， 考 虑 一 个 线性 模型 ， 该 线性 模型 
使 用 来 自 公 式 3-1 的 属性 以 及 来 自 公 式 3-2 的 标签 。 

假设 模型 的 表示 形式 如 下 (参见 公式 3-7)。 


公式 3-7 























Y; ^ *p 
Xa * Bl+x,)* 2+ U -+x,m* Bm 





属性 和 输 


的 线性 关系 








这 里 , xÆ ITRE, p 是 一 列 要 学 习 的 系数 。 添 加 一 列 对 应 于 新 添加 一 个 要 学 习 的 
参数 。 这 里 系数 个 数 也 称 作 自由 度 。 增 加 额外 的 自由 度 会 使 模型 变 复 杂 。 前 面 例子 表明 复 
杂 模 型 需要 更 多 的 数据 。 这 种 情况 可 以 通过 行 数 与 列 数 比例 来 考虑 ， 即 长 宽 比 。 


生物 数据 集 以 及 自然 语言 处 理 数据 集 一 般 是 包含 大 量 列 的 数据 集 ， 这 些 数据 集 虽 然 有 
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很 多 样本 ,但 往往 也 不 足以 训练 好 一 个 复杂 模型 。 在 生物 学 里 ， 基 因数 据 集 很 容易 就 包含 
10,000 ~ 50,000 个 属性 。 即 使 通过 成 百 上 千 次 的 单个 实验 (数据 的 行 )， 基 因数 据 也 不 足 
以 训练 一 个 复杂 的 集成 模型 。 线 性 模型 可 以 给 出 等 价 甚至 更 好 的 性 能 。 

基因 数据 很 昂贵 。 一 次 实验 (数据 行 ) 就 可 能 花费 $5,000 美元 ， 整 个 数据 集 花 费 可 
能 会 达到 5,000 万 美元 。 文 本 相对 容易 收集 和 存储 ， 但 属性 个 数 可 能 要 比 基 因 数据 中 的 属 
性 个 数 更 多 。 对 于 一 些 自然 语言 处 理 问题 ， 属 性 是 词 ， 每 一 行 对 应 一 篇 文档 。 属 性 矩阵 
中 的 每 一 个 元 素 表示 词 在 文档 中 的 出 现 次 数 。 列 的 数目 对 应 于 文档 的 词汇 量 大 小 。 根 据 
预 处 理 情况 (如 移 除 常见 的 词 ， 如 a、and 以 及 of)， 最 后 的 词汇 量 可 能 会 从 几 千 到 数 万 。 
如 果 考 虑 n-gram, 文本 的 属性 矩阵 会 更 加 庞大 。n-gram 是 相 邻 的 2 个、3 个 或 者 4 个 词 ， 
这 些 词 的 位 置 足 够 紧密 甚至 可 以 构成 短语 。 在 这 种 情况 下 ， 线 性 模型 相对 于 复杂 的 集成 
方法 ， 可 能 会 产生 相同 甚至 更 好 的 性 能 。 


3.2.4 选择 一 个 算法 : 线性 或 者 非 线性 

刚刚 看 到 的 可 视 化 例子 说 明了 使 用 线性 或 者 非 线性 模型 应 该 做 的 权衡 考虑 。 对 于 列 比 
行 多 的 数据 集 或 者 相对 简单 的 问题 ， 倾 向 于 使 用 线性 模型 。 对 于 行 比 列 多 很 多 的 复杂 问 
题 ， 倾 向 于 使 用 非 线性 模型 。 另 一 个 考虑 因素 是 训练 时 间 。 线 性 方法 要 比 非 线性 方法 训 
练 时 间 短 〈 当 你 读 完 第 4 章 以 及 第 6 章 并 且 实 际 操作 过 一 些 例子 时 ， 你 会 有 更 多 的 经 验 
来 选择 方法 )。 

选择 一 个 非 线性 模型 (如 集成 方法 ) 对 应 于 训练 大 量 不 同 复杂 度 的 模型 。 例 如 ,生成 图 3-6 
所 示 的 决策 边界 的 集成 模型 在 训练 时 大 约会 生成 1000 个 不 同 的 模型 。 这 些 模 型 有 不 同 的 
复杂 度 。 一 些 模型 会 给 出 非常 粗 粒 度 的 近似 边界 ， 这 些 边界 如 图 3-6 所 示 。 之 所 以 选择 
图 3-6 中 的 决策 边界 ， 是 因为 对 应 模型 在 预 留 数据 集 上 的 效果 最 好 。 以 上 过 程 对 许多 现代 
的 机 器 学 习 算 法 同样 适用 。3.4.1 节 会 给 出 具体 例子 。 
通过 本 节 使 用 的 数据 集 以 及 分 类 器 进行 可 视 化 ， 读 者 能 够 直观 地 看 到 影响 预测 模型 性 
能 的 因素 。 通 常 来 讲 ， 一 般 使 用 数值 评价 指标 来 度量 性 能 而 非 依赖 于 图 形 展示 。 下 一 章 将 
介绍 基于 数值 指标 的 评价 方法 、 使 用 评价 指标 要 考虑 的 因素 以 及 如 何 使 用 评价 指标 来 评估 
部 署 模 型 的 性 能 。 


3.3 度量 预测 模型 性 能 


本 节 介 绍 针对 预测 模型 进行 性 能 度量 的 两 个 方面 。 第 一 个 方面 是 对 不 同 问 题 使 用 不 同 
指标 (如 对 回归 问题 使 用 MSE、 对 分 类 问题 使 用 误 分 类 率 )。 在 相关 文献 (以 及 机 器 学 习 竞 赛 ) 
中 ， 也 可 以 看 到 使 用 ROC 曲线 以 及 曲线 下 面积 (AUC) 的 评价 指标 。 除 了 评价 ， 这 些 指标 
对 于 性 能 优化 也 很 重要 。 
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第 二 个 方面 是 在 预 留 样本 上 进行 错误 估计 的 技术 。 预 留 样 本 错误 是 
Pn 


在 新 数据 上 的 





错误 率 。 如 何 利 用 上 述 技术 来 进行 算法 比较 和 模型 选择 是 实践 的 





1 





本 章 后 续 会 





回 





对 技术 进行 详细 讨论 ， 并 且 之 后 使 用 的 例子 也 遵照 该 过 程 。 





3.3.1 不 同类 型 问题 的 性 能 评价 指标 


回归 问题 使 用 的 性 能 指标 相对 比较 直观 。 在 回归 问题 中 ， 真 实 目标 以 及 预测 值 都 是 实 
数 。 错 误 很 自然 地 被 定义 为 目标 值 与 预测 值 的 差异 。 生 成 错误 的 统计 摘要 对 性 能 比较 以 及 








问题 诊断 都 非常 有 用 。 最 常用 的 错误 摘要 是 均 方 误差 (MSE) 以 及 3 
MSE, MAE 以 及 根 MSE (也 写作 RMSE， 即 MSE 的 平方 根 ) 的 比较 如 代码 清 








代码 清单 3-1 MSE, MAE 以 及 RMSE- regressionErrorMeasures.py 


, author = 'mike-bowles' 





#here are some made-up numbers to start with 
target = [1.5, 2.1, 3.3, -4.7, -2.3, 0.75] 
prediction = [0.5, 1.5, 2.1, -2.2, 0.1, -0.5] 
error - [] 

for i in range(len(target)): 


error.append(target[i] - prediction[i]) 


#print the errors 





print("Errors ",) 


print (error) 


#ans: [1.0, 0.60000000000000009, 1.1999999999999997, 


$-2.3999999999999999, 1.25] 





= 


#calculate the squared errors and absolute value of errors 





squaredError = [] 





absError = [] 


for val in error: 





squaredError.append(val*val) 





absError.append (abs (val) ) 


#print squared errors and absolute value of errors 





print ("Squared Error") 


F 均 绝对 错误 (MAE), 


É 3-1 所 示 。 





print (squar 
#ans: [1.0, 
#5.75999999 
print ("Abso 





print (absEr 
ans: [1.0, 
2.39999999 


calculate 





print ("MSE 
ans: 2.728 
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edError) 
0.3600000000000001, 1.4399999999999993, 6.25, 
99999998, 1.5625] 


lute Value of Error") 





ror) 
0.60000000000000009, 1.1999999999999997, 2.5, 
99999999, 1,25] 


a 


and print mean squared error MSE 





= ", sum(squaredError)/len(squaredError)) 


TS 








from math import sqrt 


calculate 
print ("RMSE 
ans: 1.651 





calculate 
print ("MAE 
ans: 1.491 











compare MS 


targetDevia 





targetMean 
for val in 
targetD 
#print the 
print ("Targ 
fans: 7.570 


#print the 

print ("Targ 
/len(tar 

fans: 2.751 


本 例 从 一 组 构造 的 目标 值 与 预测 值 开始 。 首 先 ， 通 过 简单 相 减 来 计算 错误 ， 然 后 给 出 











and print square root of MSE (RMSE) 





=", sqrt (sum(squaredError) /len(squaredError) ) ) 


89285367 








- 


and print mean absolute error MAE 











= ", sum(absError)/len(absError)) 


66666667 


E to target variance 
tion = [] 

= sum(target) /len(target) 
target: 


eviation.append((val - targetMean)* (val - targetMean) ) 





target variance 
et Variance = ", sum(targetDeviation) /len(targetDeviation) ) 
3472222222219 


the target standard deviation (square root of variance) 
et Standard Deviation = ", sqrt (sum(targetDeviation) 
getDeviation) ) ) 

4263977475797 





























T MSE, MAE 以 及 RMSE 的 计算 方法 。 注 意 到 MSE 在 量 级 上 与 MAE 及 RMSE 都 明显 不 
同 。 这 是 因为 MSE 是 平方 级 别 。 从 这 个 角度 讲 ，RMSE 是 一 个 可 用 性 更 好 的 指标 。 代 码 
清单 最 后 是 方差 的 计算 (与 均值 的 均 方 误差 ) 以 及 标准 差 计 算 (方差 的 开 方 )。 这 些 量 与 
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预测 错误 指标 MSE 以 及 RMSE 进行 比较 非常 有 意义 。 例 如 ， 如 果 预 测 错误 的 MSE [n] 
目标 方差 几乎 相等 (或 者 RMSE 与 目标 标准 差 几 乎 相等 )， 这 说 明 预 测算 法 效果 并 不 好 ， 
通过 简单 对 目标 值 求 平均 来 蔡 换 预测 算法 就 能 达到 几乎 相同 的 效果 。 代 码 清单 3-1 中 所 
示 的 预测 错误 RMSE 大 约 是 实际 目标 标准 差 的 一 半 。 这 已 经 是 一 个 相当 不 错 的 性 能 。 

除了 计算 错误 的 摘要 统计 量 以 外 ， 查 看 错误 的 分 布 直方 图 、 长 尾 分 布 (使 用 分 位 数 或 
者 等 分 边界 ) 以 及 正 态 分 布 程度 等 对 于 分 析 错 误 原 因 以 及 错误 程度 也 非常 有 用 。 有 时 这 些 
探索 会 对 定位 错误 原因 以 及 提升 潜在 性 能 带 来 启发 。 

分 类 问题 需要 不 同 对 待 。 分 类 问题 的 评价 方法 一 般 围绕 误 分 类 率 展开 ， 即 错 分 的 样本 
所 占 的 比例 。 例 如 ， 预 测 网 站 访问 者 是 否 会 点 击 链接 是 一 个 分 类 问题 。 分 类 算法 可 以 给 出 
预测 概率 ， 而 不 是 硬 的 决策 (输出 结果 只 有 点 击 以 及 未 点 击 )。 本 书 讨论 的 算法 都 会 输出 
概率 。 

下 面 展示 为 什么 概率 是 有 用 的 。 如 果 点 击 或 者 不 点 击 的 预测 结果 以 概率 的 方式 给 出 ， 
假设 80% 的 情况 下 会 点 击 (对 应 的 20% 的 情况 不 点 击 )， 数 据 科学 家 可 以 选择 50% 作 
为 一 个 阐 值 来 决定 是 否 呈 现 链接 。 在 一 些 情况 下 ,设置 更 高 或 者 更 低 的 阅 值 会 给 出 更 好 
的 预测 结果 。 

假设 问题 是 欺诈 检测 (对 于 信用 卡 、 自 动 票 据 交 换 (支票 )、 保 险 索赔 等 )。 判 断 是 否 
欺诈 需要 有 电话 座席 员 人 工 介 入 交易 来 放行 。 不 同 决策 对 应 不 同 代价 ， 如果 产 生 了 电话 ， 
就 会 有 电话 费 以 及 客户 响应 的 代价 ;如 果 没 有 电话 ， 就 存在 被 欺诈 的 代价 。 如 果 采 取 行 
动 的 代价 相对 于 不 采取 行动 的 代价 非常 低 ， 此 时 可 以 使 用 低 的 辣 值 来 决定 是 否 采取 行动 ， 
从 而 欺诈 代价 就 比较 低 ， 但 同时 会 有 更 多 的 人 工 介 入 。 

那么 在 什么 时 候 应 该 介入 客户 提现 ， 要 求 其 必须 致电 信用 卡 服 务 中 心 来 完成 后 续 操 
fp? 当 算 法 得 到 此 笔 交 易 存在 欺诈 的 概率 为 20%、50% 或 者 80% 的 概率 时 ， 开 始 介 入 
交易 ?如果 设置 介入 的 阐 值 为 20%， 你 会 更 加 频繁 地 介入 ， 避 免 更 多 的 欺诈 交易 ， 但 同 
时 也 会 激怒 更 多 客户 以 及 增加 坐席 代表 工作 负担 。 或 许 将 阐 值 设 高 (如 80%) 来 容忍 更 
多 的 欺诈 是 一 个 更 好 的 策略 。 

对 于 这 种 情况 ， 一 般 使 用 混 消 矩阵 (confusion matrix) 或 者 列 联 表 (contingency 
table) 来 安排 可 能 的 结果 输出 。 图 3-9 为 混淆 矩阵 的 一 个 例子 。 混 淆 抢 阵 中 的 数字 表示 基 
于 指定 阅 值 进行 决策 所 产生 的 性 能 值 。 图 3-9 中 的 混淆 矩阵 是 基于 特定 的 辣 值 对 135 个 测 
试 样 例 进行 预测 后 的 结果 。 和 矩阵 中 的 2 列 代表 可 能 的 预测 值 ，2 行 表示 每 个 样本 可 能 取 到 
的 真实 值 。 所 以 测试 集中 的 每 个 样本 可 以 被 分 配 到 表 中 4 个 单元 中 的 一 个 。 图 3-9 的 2 类 
对 应 于 “点 击 ” 以 及 “未 点 击 ”, 该 分 类 结果 用 于 选择 是 否 呈 现 广 告 。2 类 也 可 以 对 应 于 “ 欺 
YE" AR "3JEHCYE", ， 或 者 其 他 结果 对 ， 这 取决 于 要 解决 的 问题 。 
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预测 类 
正 例 (点 击 ) 负 例 (未 点 击 ) 
实际 类 正 (点 击 ) 真正 (TP) Efi (FN) 
负 (未 点 击 ) 假 正 (FP) 真 负 (TN) 
图 3-9 混淆 矩阵 的 样 例 














左上 角 的 单元 格 包 含 预测 结果 为 点 击 并 且 预 测 标签 与 真实 类 别 标签 一 致 的 样本 。 这 些 
样本 称 作 真 正 例 ， 一 般 简写 为 TP。 左 下 部 分 的 单元 格 对 应 预测 是 正 的 〈 点 击 ) ， 但 是 实际 
答案 是 负 的 (未 点 击 )。 这 些 样本 称 作 假 正 例 ， 简 写 为 FP。 甜 阵 右 侧 的 列 包含 预测 结果 为 
未 点 击 的 样本 。 右 上 角 样 本 的 正确 答案 是 点 击 因此 被 称 作 假 负 例 或 者 FEN。 右 下 角 的 样本 
被 预测 为 未 点 击 ， 与 正确 答案 一 致 ， 称 作 真 负 例 或 者 TN。 

如 果 决 策 闪 值 改变 会 发 生 什么 ?考虑 一 种 极端 情况 。 将 决策 装 值 设 为 0.0， 不 论 模型 
预测 的 概率 是 多 少 ， 结 果 都 会 被 认为 是 点 击 。 此 时 所 有 样本 都 会 挤 到 左边 一 列 。 右 边 一 
列 只 有 0。TP 的 数量 会 变 为 17。FP 的 数量 会 变 为 118。 如 果 对 FP 没有 惩罚 ，TN 没有 奖 
励 ， 这 种 方案 还 说 得 下 去 ， 但 如 果 假 设 样本 都 是 点 击 的 话 ， 就 不 需要 预测 算法 了 。 类 似 地 ， 
如 果 对 FN 没有 惩罚 ， 对 TP 没有 奖励 ， 阔 值 可 以 设 为 1.0， 这 样 所 有 的 样本 被 分 类 为 未 点 
击 。 通 过 这 些 极端 例子 可 以 帮助 我 们 理解 决策 屿 值 的 作用 ,但 对 实际 应 用 用 处 不 大 。 下 面 
我 们 将 展示 在 岩石 - 水 雷 数据 集 上 构建 分 类 器 的 过 程 。 

岩石 -水雷 数 据 集 对 应 的 问题 是 使 用 声 纳 数据 来 判断 海底 物体 是 岩石 还 是 水 雷 〈 如 果 
想 全 面 讨论 或 者 探究 数据 集 ， 参 照 第 2 章 )。 代 码 清 单 3-2 为 在 岩石 - 水 雷 数 据 集 上 训练 
简单 分 类 器 的 Python 代码 。 


代码 清单 3-2 ”在 岩石 - 水 雷 数据 集 上 度量 分 类 器 性 能 













































































, author = 'mike-bowles' 
fuse scikit learn package to build classified on rocks-versus-mines data 


#assess classifier performance 


import urllib2 

import numpy 

import random 

from sklearn import datasets, linear model 
from sklearn.metrics import roc curve, auc 


import pylab as pl 
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def confusionMatrix(predicted, actual, threshold): 





if len(predicted) != len(actual): return -1 
tp = 0.0 
fp = 0.0 
tn = 0.0 
fn = 0.0 


for i in range(len(actual)): 
if actual[i] > 0.5: #labels that are 1.0 (positive examples) 
if predicted[i] > threshold: 











tp += 1.0 #correctly predicted positive 
else: 
fn += 1.0 #incorrectly predicted negativ 
else: labels that are 0.0 (negativ xamples) 


if predicted[i] < threshold: 





tn += 1.0 #correctly predicted negativ 


else: 











fp += 1.0 #incorrectly predicted positive 
rtn = [tp, fn, fp, tn] 


return rtn 


#read in the rocks versus mines data set from uci.edu data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList = [] 
labels - [] 
for line in data: 

#split on comma 

row = line.strip().split(",") 

#assign label 1.0 for "M" and 0.0 for "R" 

if(row[-1] == 'M'): 

labels.append(1.0) 
else: 


labels.append(0.0) 





#remove lable from row 


row.pop () 
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#convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


#divide attribute matrix and label vector into training(2/3 of data) 


fand test sets (1/3 of data) 











indices = range(len(xList) ) 

xListTest = [xList[i] for i in indices if i%3 == 0 | 

xListTrain = [xList[i] for i in indices if i%3 != 0 ] 
labelsTest = [labels[i] for i in indices if i%3 == 0] 
labelsTrain = [labels[i] for i in indices if i%3 != 0] 

#form list of list input into numpy arrays to match input class 








#for scikit-learn linear model 


" 


xTrain = numpy.array(xListTrain); yTrain = numpy.array(labelsTrain) 





xTest = numpy.array(xListTest); yTest = numpy.array(labelsTest) 


fcheck shapes to see what they look like 


0 


print ("Shape of xTrain array", xTrain.shape) 


" 





print("Shape of yTrain array", yTrain.shape) 


qn 


print ("Shape of xTest array", xTest.shape) 





( 
( 
( 
( 





a 


print("Shape of yTest array", yTest.shape) 


#train linear regression model 





rocksVMinesModel - linear model.LinearRegression() 


rocksVMinesModel.fit (xTrain, yTrain) 


#generate predictions on in-sample error 
trainingPredictions = rocksVMinesModel.predict (xTrain) 


print("Some values predicted by model", trainingPredictions[0:5], 





trainingPredictions[-6:-1]) 


#generate confusion matrix for predictions on training set (in-sample 


confusionMatTrain = confusionMatrix(trainingPredictions, yTrain, 0.5) 





#pick threshold value and generate confusion matrix entries 


tp = confusionMatTrain[0]; fn = confusionMatTrain[1] 








fp = confusionMatTrain[2]; tn = confusionMatTrain [3] 


print ("tp =" 4 str(tp) + "\tfin =" + str(fn) + "Nn" + "fp =" 二 
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str(fp) + "Nttn = " 4+ str(tn) + 'Xn*) 


generate predictions on out-of-sample data 


testPredictions = rocksVMinesModel.predict (xTest) 


generate confusion matrix from predictions on out-of-sample data 


conMatTest = confusionMatrix(testPredictions, yTest, 0.5) 





pick threshold value and generate confusion matrix entries 


tp = conMatTest[0]; fn = conMatTest[1] 











fp = conMatTest[2]; tn = conMatTest [3] 
print("tp = " + str(tp) + "\tfn = " + str(fn) + "\n" + "fp = " c 
stri (fp) + "\ttn = " + str(tn) + '\n') 


#generate ROC curve for in-sample 


fpr, tpr, thresholds = roc curve(yTrain,trainingPredictions) 
roc_auc = auc(fpr, tpr) 


o 


print( 'AUC for in-sample ROC curve: $f' % roc auc) 


# Plot ROC curve 


pl.clf() 

pl.plot(fpr, tpr, label-'ROC curve (area - $0.2f)' $ roc auc) 
pl.plot([0, 1], [0, 1], 'k-') 

pl.xlim([0.0, 1.0]) 

pl.ylim([0.0, 1.0]) 

pl.xlabel('False Positive Rate") 

pl.ylabel('True Positive Rate') 





pl.title('In sample ROC rocks versus mines') 


pl.legend(loc="lower right") 








pl.show() 


fgenerate ROC curve for out-of-sample 





fpr, tpr, thresholds - roc curve(yTest,testPredictions) 
roc auc - auc(fpr, tpr) 


print( 'AUC for out-of-sample ROC curve: $f' $ roc auc) 


# Plot ROC curve 
pl.clf() 
pl.plot(fpr, tpr, label-'ROC curve (area - $0.2f)' $ roc auc) 
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l.pliot([0; 1], [Os 1], “k=") 
J.xXx3mi([O40, 10I 

l.ylim([0.0, 1.0]) 
l.xlabel('False Positive Rate') 
l.ylabel('True Positive Rate') 


l.title('Out-of-sample ROC rocks versus mines') 





L.legend(loc="lower right") 





V 0 'O 'O 'O 'O 'O 'O 


l.show() 





代码 第 一 部 分 将 Irvine 数据 集 读 入 并 将 其 解析 为 包含 标签 与 属性 的 记录 。 下 一 步 将 数 
据 划 分 为 2 个 子 集 : 测试 集 包含 1/3 的 数据 ， 训 练 集 包 含 剩 下 2/3 的 数据 。 标 注 为 test 的 
数据 集 不 能 用 于 训练 分 类 器 ， 但 会 被 保留 用 于 评 佑 训练 得 到 的 分 类 器 性 能 。 这 一 步 用 来 模 
拟 分 类 器 在 新 数据 样本 上 的 行为 。 稍 后 本 章 将 会 讨论 用 于 预 留 数据 的 方法 ， 并 在 新 数据 集 
上 对 性 能 进行 评估 。 

分 类 器 的 训练 通过 将 标签 M (REKE) 以 及 标签 R (代表 岩石 ) 转换 为 2 个 数值 : 
1.0 对 应 于 矿产 ，0.0 对 应 于 岩石 ， 然 后 使 用 最 小 二 乘法 来 拟 合 一 个 线性 模型 。 上 面 方法 理 
解 实现 起 来 都 非常 简单 ， 性 能 也 接近 于 后 续 讨 论 的 更 加 复杂 的 方法 。 代 码 清 单 3-2 中 的 程 
序 使 用 scikit-learn 中 的 线性 回归 包 来 训练 普通 的 最 小 均 方 模型 。 训 练 的 模型 用 于 在 训练 
集 和 测试 上 生成 预测 。 

代码 会 打印 一 些 预测 值 的 样 例 。 线 性 回归 模型 产生 的 预测 大 部 分 集中 在 0.0 到 1.0, 
然而 也 并 非 全 部 。 这 些 预测 不 只 是 概率 。 仍 然 可 以 将 它们 与 决策 阐 值 进行 比较 来 生成 分 类 
标签 。 函 数 confusionMatrix() 生成 了 混淆 和 矩阵， 类 似 于 图 3-9。 该 函数 以 预测 值 、 对 应 的 
实际 标签 以 及 决策 阅 值 作为 输入 。 函 数 将 预测 值 与 决策 阐 值 进行 比较 来 决定 为 每 个 样本 
赋 “ 正 值 ”或 者 “ 负 值 ”， 预 测 值 对 应 于 混淆 矩阵 中 的 列 。 通 数 再 根据 样本 的 实际 标签 将 
样本 放 在 对 应 的 行 中 。 

每 个 决策 阔 值 的 错误 率 都 可 以 从 混淆 矩阵 中 计算 得 到 。 总 的 错误 数 为 FP 与 FN 的 加 和 。 
样 何 代码 分 别 在 训练 集 以 及 测试 集 上 计算 混 靖 和 矩阵， 并 且 打 印 出 来 。 在 训练 集 上 误 分 类 率 
为 8%， 在 测试 集 上 误 分 类 率 为 26%。 一 般 来 讲 , 测试 集 上 的 性 能 要 差 于 训练 集 上 的 性 能 。 
在 测试 集 上 的 结 采 更 能 代表 错误 率 。 

当 决 策 辣 值 改变 的 话 ， 误 分 类 率 也 会 改变 。 表 3-2 显示 随 着 决策 辣 值 的 变化 ， 误 分 类 
率 的 变化 情况 。 表 中 数字 基于 测试 集 计 算得 到 。 书 中 后 续 所 有 性 能 描述 都 是 基于 测试 集 的 
结果 。 如 果 错 误 基于 训练 集 ， 书 中 会 有 提示 :“ 警 告 : 这 些 是 在 训练 集 上 得 到 的 错误 ”"。 如 
果 目 标 是 最 小 化 误 分 类 错误 ， 那 么 最 佳 的 决策 辣 值 应 该 设 为 0.25。 
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表 3-2 决策 阅 值 对 误 分 类 率 的 影响 
XR RAKE 
0 28.6% 
0.25 24.3% 
0.5 25.7% 
0.75 30.0% 
1.0 38.6% 








最 佳 决策 阔 值 应 该 是 能 够 最 小 化 误 分 类 率 的 值 。 然 而 ， 不 同类 错误 对 应 的 代价 可 能 是 
不 同 的 。 例 如 ， 对 于 岩石 - 水雷 预 测 问题 ， 如 果 将 岩石 预测 为 水 雷 ， 可 能 会 花费 $100 请 
潜水 员 下 水 确认 ; 如 果 将 水 雷 预 测 为 岩石 ， 那 么 未 爆炸 的 水 雷 不 移 除 的 话 可 能 会 导致 $1,000 
美元 的 人 身 财产 损失 。 一 个 FP 的 样本 代价 为 100， 一 个 FN 的 样本 代价 为 1,000。 有 了 这 
样 的 假设 ， 不 同 决策 阔 值 生成 的 错误 代价 如 表 3-3 所 示 。 将 水 雷 误 分 类 为 岩石 (不 对 其 进 
行 处 理 可 能 会 威胁 到 健康 安全 ) 的 高 代价 会 使 最 优 决策 阔 值 趋向 于 0。 这 意味 着 会 产生 更 
多 FN， 因 为 FN 的 代价 不 高 。 一 项 完整 的 分 析 应 该 包括 移 除 水 雷 的 代价 以 及 随 着 移 除 带 
来 的 1,000 美元 的 好 处 。 如 果 这 些 数值 已 经 知道 (或 者 接近 于 合理 近似 )， 它 们 理应 在 计 
算 阔 值 时 考虑 。 


















































表 3-3 不 同 决策 阔 值 的 错误 代价 
决策 阅 值 假 负 例 的 代价 假 正 例 的 代价 总 代价 
0.0 1000 1900 2900 
0.25 3000 1400 4400 
0.5 9000 900 9900 
0.75 18000 300 18300 
1.00 26000 100 26100 

















注意 到 总 的 FP 以 及 FN 的 相对 代价 取决 于 数据 集中 正 例 与 负 例 的 比例 。 岩 石 - 水雷 
数据 集 有 相同 数量 的 正 例 与 负 例 (岩石 和 水 雷 )。 这 些 都 是 实验 中 的 常用 假设 。 实 际遇 到 
的 正 例 数 和 负 例 数 可 能 完全 不 同 。 在 系统 部 署 场景 下 ， 如 果 正 负 例 数目 不 同 ， 就 可 能 要 基 
于 实际 应 用 比例 做 一 些 调整 。 
数据 科学 家 可 能 并 没有 关于 正 负 样 本 误 分 的 具体 代价 值 ， 但 仍然 想 使 用 除了 误 分 类 率 
外 的 其 他 刻画 错误 的 方法 。 一 种 常见 的 指标 被 称 作 接收 者 操作 曲线 或 者 ROC 曲线 (http:/ 


en.wikipedia.org/wiki/Receiver_operating characteristic ) 。 
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ROC 从 其 初始 应 用 中 继承 了 对 应 的 名 字 : 通过 处 理 雷 达 信 号 来 判断 是 否 有 敌 机 出 现 。 
ROC 曲线 使 用 一 个 图 来 展示 不 同 的 列 联 表 ， 图 中 绘制 的 是 真正 率 (简写 为 TPR) 随 假 正 率 
(FPR) 的 变化 情况 。TPR 代表 被 正确 分 类 的 正 样本 比例 (参见 公式 3-8)。FPR 是 FP 相对 于 
实际 负 样 本 的 比例 (参见 公式 3-9)。 从 列 联 表 的 元 素来 看 ， 这 些 值 通过 下 面 的 公式 计算 得 到 。 

TP 
~ TP + FN 






























































公式 3-8 真正 率 




















FP 
TN + FP 


FPR= 





公式 3-9 REX 





HEEF, WR RRB EASE ASDA, AAEN RRA 1E 

此 时 ，TPR=1.0。 因 为 每 个 样本 都 被 分 类 为 正 例 ， 没 有 假 负 例 (FN-0.0), FPR-LO 因为 
没有 例子 被 分 类 为 负 例 (TN=0.0)。 然 而 当 决 策 阐 值 设 得 很 高 ,TP=0， 那 么 TPR-0, FP-0, 
因为 没有 样本 被 分 类 为 正 例 。 因 此 ，FPR=0。 图 3-10 和 图 3-11 使 用 pylab roc_curve0 以 及 






































auc) 函数 。 图 3-10 为 基于 训练 集 得 到 的 ROC 性 能 曲线 。 图 3-11 为 测试 集 上 的 ROC 性 能 曲线 。 
岩石 水 雷 问题 样本 内 的 ROC 曲 线 

















假 正 率 





图 3-10 ”训练 集 上 的 岩石 - 水 雷 分 类 器 的 ROC 曲线 
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岩石 水 雷 问题 样本 外 的 ROC 曲 线 


真正 率 





假 正 率 





图 3-11 岩石 -水雷 分 类 器 在 样本 外 数据 的 ROC 曲线 
































如 果 分 类 器 〈 针 对 岩石 - 水 雷 问 题 ) 为 随机 分 类 ，ROC 的 样子 为 一 条 从 左下 角 到 右 
上 和 角 的 对 角 线 。 这 条 对 角 线 一 般 画 在 图 里 作为 参照 点 。 对 于 一 个 完美 的 分 类 器 ，ROC Hi 
线 应 该 是 直接 从 (0,0) 上 升 到 (0,1)， 然 后 横着 连 到 (1,1) 的 直线 。 显然， 图 3-10 (在 
测试 集 上 的 结果 ) 要 比 图 3-11 更 接近 于 完美 答案 。 分 类 器 越 接近 于 左上 角 ， 效 果 越 好 。 
如 果 ROC 曲线 掉 到 对 角 线 下 边 ， 这 一 般 表 示 数 据 科 学 家 有 可 能 把 预测 符号 和 弄 反 了 ， 此 时 
应 该 认真 检查 代码 。 

图 3-10 和 图 3-11 同样 展示 了 曲线 下 的 面积 值 (AUC), AUC 正如 名 字 所 表达 的 ， 指 
的 是 ROC 曲线 下 的 面积 。 一 个 完美 分 类 器 的 AUC=1.0， 随 机 猜测 分 类 器 对 应 的 AUC 为 
0.5。 图 3-10 和 图 3-11 的 AUC 证 明基 于 训练 集 进行 错误 估计 往往 会 高 估 性 能 。 训 练 集 上 
的 AUC=0.98， 测 试 集 上 的 AUC-O.85, 

一 些 用 于 估算 2 分 类 问题 性 能 的 方法 同样 适用 于 多 分 类 问题 。 误 分 类 错误 仍然 有 意义 ， 
混 消 矩阵 也 同样 适用 。 有 许多 将 ROC 曲线 以 及 AUC 指标 推广 到 多 分 类 应 用 的 工作 。 


3.3.2 部署 模型 的 性 能 模拟 

前 一 节 的 例子 展示 了 性 能 评估 不 能 基于 训练 集 进行 计算 。 例子 将 数据 切 分 为 2 个 子 集 。 
第 一 个 子 集 称 作 训练 集 ， 包 含 2/3 的 可 用 数据 ， 用 于 拟 合 一 个 普通 的 最 小 均 方 模型 。 第 2 
个 子 集 包 含 剩 下 13 的 数据 ， 称 作 测 试 集 ， 用 于 评估 性 能 (不 在 模型 训练 中 使 用 )。 对 于 
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机 器 学 习 ， 以 上 步骤 是 一 个 标准 流程 。 

尽管 目前 没有 明确 规则 来 确定 测试 集 的 大 小 ， 一 般 测 试 集 可 以 占 所 有 数据 的 
25% ~ 35%。 要 记 住 模型 训练 的 性 能 随 着 训练 集 规模 的 减 小 而 下 降 。 将 过 多 数据 从 训练 
= 会 影响 模型 性 能 估计 。 

UP MALIN TI SCL 
WE. Fd 3-12 展示 了 如 何 基于 n 折 交叉 验证 来 对 
数据 进行 切 分 。 数 据 集 被 等 分 为 n 份 不 相交 的 Block1 |Block2 [Block 3 | Block 4 Block 5 
子 集 。 训 练 和 测试 需要 多 次 遍历 数据 。 图 3-12 eem 
中 的 n=5。 第 一 次 遍历 是 ， 数 据 的 第 一 块 被 预 留 

用 于 测试 ， 剩 下 ol 块 用 于 训练 。 第 2 遍 ， 第 2 块 被 预 留 做 测试 ， 剩 下 n-1 块 用 于 训练 。 
该 过 程 继续 ， 直 到 所 有 数据 都 被 预 留 一 遍 (对 于 图 3-12，5 折 交 义 验证 的 样 例 中 ， 数 据 
会 被 扫描 5 次 )。 

n 折 交 又 验证 可 以 估计 预测 错误 : 在 多 份 样本 上 估计 错误 来 估计 错误 边界 。 通 过 为 训 
练 集 分 配 更 多 样本 ， 生 成 的 模型 会 产生 更 低 的 泛 化 错误 ， 具 备 更 好 的 预测 性 能 。 例 如 ， 如 
果 选 择 10 折 交 又 验证 ， 每 次 训练 只 需要 留 出 10% 的 数据 进行 预测 。n 折 交 义 验 证 是 以 更 
多 的 训练 时 间作 为 代价 。 保 留 一 个 固定 的 集合 作为 测试 集 可 以 有 更 快 的 训练 速度 ， 因 为 它 
只 需要 扫 摘 一遍 训练 数据 。 当 使 用 mn 折 交 义 验 证 的 训练 时 间 不 可 忍受 时 ， 使 用 预 留 测试 集 
是 一 个 更 好 的 选择 ， 而 且 如 果 训 练 数据 很 多 的 话 ， 留 一 些 数据 出 来 不 会 对 模型 性 能 造成 太 
大 影响 。 

另 一 件 值得 注意 的 是 测试 样本 应 该 能 代表 整个 数据 集 。 上 一 节 例 子 使 用 的 抽样 样本 不 
完全 是 一 个 随机 样本 。 它 是 每 隔 3 个 样本 选 1 个 作为 测试 样本 。 类 似 上 面 方法 ,通过 均匀 
采样 一 般 足 够 用 了 。 但 必须 避免 采样 过 程 给 训练 集 和 测试 集 引 入 偏差 。 例 如 ,给 一 类 数据 ， 
该 数据 每 天 生成 一 个 ， 数 据 按照 采样 日 期 排列 ， 那 么 7 折 交 义 验 证 使 用 每 隔 7 个 点 抽样 一 
个 点 的 方法 就 不 正确 。 

如 果 研 究 现象 有 特殊 的 统计 特征 ， 抽 样 过 程 可 能 要 更 加 小 心 。 此 时 需要 注意 在 测试 样 
本 中 保留 统计 特征 。 这 类 例子 包括 对 稀 蚊 事件 (如 欺诈 或 者 广告 点 击 ) 进行 预测 。 要 建 模 
的 事件 出 现 频率 非常 少 ， 随 机 抽样 可 能 导致 有 过 多 或 者 过 少 的 样本 出 现在 测试 集中 ， 同 时 
导致 对 性 能 的 错误 估计 。 分 层 抽样 (http://en.wikipedia.org/wiki/Stratified sampling) 将 数 
据 切 分 为 不 同 子 集 ， 分 别 在 子 集中 进行 抽样 然后 组 合 。 如 果 类 别 标签 对 应 罕见 事件 ， 可 能 
需要 分 别 从 欺诈 样本 以 及 合法 样本 中 抽样 ， 然 后 组 成 测试 集 。 更 重要 的 是 ， 这 样 的 数据 就 
是 模型 最 终 要 运行 的 数据 。 

模型 经 过 训练 和 测试 ， 那 么 还 应 该 将 训练 集 和 测试 集 再 合并 为 一 个 更 大 的 集合 ， 重 新 
在 该 集合 上 训练 模型 。 样 本 外 测试 已 经 可 以 给 出 预测 错误 的 期 望 结 果 。 这 就 是 为 什么 要 预 
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留 一 部 分 数据 的 原因 。 如 果 能 在 更 多 数据 上 进行 训练 , 模型 效果 会 更 好 , 泛 化 能 力也 更 好 。 
真正 要 部 署 的 模型 应 该 在 所 有 数据 上 进行 训练 。 本 节 将 提供 一 些 工 具 来 量化 模型 的 预测 性 
能 。 针 对 模型 以 及 问题 复杂 度 ， 下 一 节 将 介绍 如 何 使 用 数值 比较 来 替换 图 形 比 较 。 这 种 替 
换 使 得 模型 选择 过 程 变 得 规范 。 
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本 节 使 用 最 小 二 乘法 (OLS) 来 说 明 几 个 问题 。 首 先 ， 它 展示 为 什么 OLS 有 时 会 
对 问题 过 拟 合 。 过 拟 合 是 指 训练 数据 和 测试 数据 上 的 错误 存在 显著 差异 ， 比 如 上 一 节 的 
OLS 用 于 解决 岩石 - 水 雷 分 类 问题 。 其 次 ， 我 们 将 引入 2 种 方法 来 解决 OLS 的 过 拟 合 。 
这 些 方法 会 培养 你 的 直觉 ， 为 第 4 章 提 到 的 惩罚 线性 回归 方法 做 铺垫 。 此 外 ， 克 服 过 拟 合 
问题 的 方法 在 许多 现代 机 器 学 习 算 法 中 都 会 用 到 。 现 代 算 法 往往 会 产生 大 量 不 同 复杂 度 
的 模型 , 然后 基于 样本 外 数据 的 性 能 来 权衡 模型 复杂 度 、 问题 复杂 度 以 及 数据 集 丰 富 程度 ， 
最 终 决定 使 用 哪个 模型 。 该 过 程 会 在 后 续 重 复 使 用 。 
普通 的 最 小 二 乘法 作为 一 个 原型 很 好 地 展示 了 机 顺 学 习 算 法 的 方方面面 。 它 是 一 个 
有 监督 的 学 习 算 法 ， 包 括 训练 过 程 以 及 测试 过 程 。 在 某 些 情况 下 可 能 会 过 拟 合 。 最 小 
二 乘法 与 其 他 现代 的 函数 逼近 算法 都 存在 一 些 共 性 。 然 而 ， 与 现代 机 器 学 习 算法 相 比 ， 
OLS 少 一 个 重要 特点 。 在 原始 公式 中 〈 最 熟悉 的 公式 )， 当 过 拟 合 发 生 时 ， 没 有 办 法 阻 
正 学习 过 程 。 这 就 像 让 汽车 全 速 前 进 〈 当 道路 宽敞 时 很 好 ， 在 紧急 情况 下 就 会 有 问题 ) 。 
幸运 的 是 ， 有 大 量 的 工作 都 在 改进 最 小 二 乘法 ， 尽 管 最 小 二 乘法 距离 当时 发 明 它 的 高 斯 和 
勒 让 德 已 经 过 去 了 200 年 。 本 节 引 入 2 种 方法 来 调整 普通 最 小 二 乘法 的 瓶颈 : 前 向 逐步 
回归 和 怜 回归 。 


3.4.1 通过 权衡 问题 复杂 度 、 模 型 复杂 度 以 及 数据 集 规模 来 选择 模型 

下 面 一 些 例子 将 介绍 现代 机 器 学 习 算法 是 如 何 进行 调整 来 更 好 地 拟 合 问题 和 数据 集 。 
第 一 个 例子 是 对 最 小 二 乘法 进行 修改 ， 被 称 作 前 向 逐步 回归 方法 。 具 体 工作 过 程 如 下 : 
回忆 下 公式 3-1 以 及 公式 3-2 定义 要 解决 的 问题 (这 里 对 应 公式 3-10 以 及 公式 3-11)， 向 
量 了 包含 标签 ， 矩阵 包含 用 于 预测 标签 的 属性 。 











































































































公式 3-10 ”数值 标签 向 量 
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Xo %2 Xin 
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公式 3-11 ZUBE EB DE 














如 果 这 是 一 个 回归 问题 ， 那 么 了 是 包含 实数 的 列 向 量 ， 线 性 问题 是 找到 一 个 权重 向 量 
B 以 及 一 个 标量 包 (参照 公式 3-12)。 








pol 
b, 
公式 3-12 ”线性 模型 的 系数 向 量 
线性 模型 的 目标 是 选择 8 以 更 好 地 逼近 了 (参照 公式 3-13)。 
By 
Y-X B+ By 


Po 

















公式 3-13. ”通过 属性 的 线性 函数 来 近似 标签 


如 果 革 的 列 数 等 于 针 的 行 数 ， 并 且 关 不 同 列 之 间 是 相互 独立 的 (不 存在 相互 之 间 的 
线性 关系 )， 那 么 站 可 以 求 逆 ,符号 一 可 以 将 换 为 =。 得 到 的 向 量 8 会 更 精确 地 拟 合 标 签 ， 
看 起 来 很 好 但 不 正确 。 问 题 在 于 出 现 了 过 拟 合 (过 拟 合 是 指 在 训练 数据 上 预测 效果 很 好 但 
在 新 数据 上 不 能 复制 )。 对 于 真实 问题 ， 这 并 不 是 一 个 好 的 结果 。 过 拟 合 的 根源 在 于 工 中 
有 太 多 的 列 。 答 案 可 能 是 去 掉 式 中 的 一 些 列 。 然 而 去 掉 一 些 列 又 转化 为 去 掉 多 少 列 以 及 
那儿 列 应 该 去 掉 的 问题 。 这 种 蛮 力 的 方法 也 被 称 作 最 佳 子 集 选择 。 


3.4.2 ”使 用 前 向 逐步 回归 来 控制 过 拟 合 

下 面 代码 简要 勾勒 了 最 佳 子 集 选 择 算法 的 过 程 。 
基本 想法 是 在 列 的 个 数 上 增加 一 个 约束 (假设 为 nCol)， 然 后 从 匀 的 所 有 列 中 抽取 特 
定 个 数 的 列 构成 数据 集 ， 在 上 边 执行 最 小 二 乘法 ， 遍 历 所 有 列 的 组 合 ( 列 数 为 nCol)， 找 
到 在 测试 集 上 取得 最 佳 效果 的 nCol 值 ， 增 加 nCol 值 ， 重 复 上 述 过程 。 以 上 过 程 产生 最 佳 
的 一 列子 集 、 两 列子 集 一 直到 所 有 列子 集 (对 应 矩阵 了 7。 对 于 每 个 子 集 同样 有 一 个 性 能 与 
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之 对 应 。 下 一 步 决定 在 部 署 时 是 使 用 一 列子 集 版 本 、 两 列子 集 版 本 ， 还 是 其 他 版 本 。 到 这 
就 简单 了 ， 直 接 选 择 错误 率 最 低 的 版 本 。 


Initialize: Out of sample error = NULL 





Break X and Y into test and training sets 
for i in range(number of columns in X): 
for each subset of X having i+1 columns: 
fit ordinary least squares model 
Out of sample error.append(least error amoung subsets containing 


itl columns) 





Pick the subset corresponding to least overall error 

最 佳 子 集 选择 存在 的 一 个 问题 是 该 算法 需要 大 量 计算 ， 即 使 属性 不 多 的 情况 下 (属性 
数 对 应 了 的 列 数 )， 计 算 量 也 非常 巨大 。 例 如 ，10 个 属性 对 应 于 2"=1000 AFE, FJL 
种 方法 可 以 避免 这 种 情况 。 下 面 的 代码 展示 了 前 向 逐步 回归 的 过 程 。 前 向 逐步 回归 的 想 
法 是 从 1 列子 集 开 始 ， 找 到 效果 最 佳 的 那 一 列 属 性 ， 接 着 寻找 与 其 组 合 与 效果 最 佳 的 第 2 
列 属 性 ， 而 不 是 评估 所 有 的 2 列子 集 。 前 向 逐步 回归 的 伪 代 码 如 下 。 


Initialize: ColumnList = NULL 


















































Out-of-sample-error = NULL 





Break X and Y into test and training sets 
For number of column in X: 
For each trialColumn (column not in ColumnList): 


Build submatrix of X using ColumnList + trialColumn 





Train OLS on submatrix and store RSS Error on test data 





ColumnList.append(trialColumn that minimizes RSS Error) 





Out-of-sample-error.append (minimum RSS Error) 
最 佳 子 集 选 择 以 及 前 向 逐步 回归 过 程 基本 类 似 。 它 们 训练 一 系列 的 模型 〈 列 数 为 1 训 
练 几 个 ， 列 数 为 2 训练 几 个 ， 等 等 )。 这 种 方法 产生 了 参数 化 的 模型 族 (所 有 线性 回归 以 
列 数 作为 参数 )。 这 些 模型 在 复杂 度 上 存在 差异 ， 最 后 的 模型 通过 在 预 留 样本 上 计算 错误 
进行 选择 。 
代码 清单 3-3 为 在 红酒 数据 集 上 实现 的 前 向 逐步 回归 的 Python 代码 。 














代码 清单 3-3 ”前 向 逐步 回归 : 红酒 品质 数据 -fwdStepwiseWine.py 


import numpy 
from sklearn import datasets, linear model 
from math import sqrt 


import matplotlib.pyplot as plt 
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def xattrSelect (x, idxSet): 
#takes X matrix as list of list and returns subset containing 
#columns in idxSet 
xOut = [] 
for row in x: 
xOut.append([row[i] for i in idxSet]) 


return(xOut) 


#read data into iterable 
target url - ("http://archive.ics.uci.edu/ml/machine-learningdatabases/" 
"wine-quality/winequality-red.csv") 
data - urllib2.urlopen(target url) 
xList = [] 
labels = [] 
names = [] 
firstLine = True 
for line in data: 
if firstLine: 


names = line.strip().split(";") 





firstLine = False 
else: 
split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1])) 
remove label from row 


row.pop () 











convert row to floats 
floatRow = [float(num) for num in row] 


xList.append (floatRow) 


#divide attributes and labels into training and test sets 








indices = range(len(xList) ) 

xListTest = [xList[i] for i in indices if i%3 == ] 
xListTrain = [xList[i] for i in indices if i%3 != 0 ] 
labelsTest = [labels[i] for i in indices if i%3 == 0] 








labelsTrain = [labels[i] for i in indices if i$3 != 0] 
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#build list of attributes one-at-a-time - starting with empty 
attributeList - [] 
index = range (len (xList[1])) 


indexSet = set(index) 





indexSeq = [] 
[] 





oosError 


for i in index: 

attSet = set(attributeList) 
#attributes not in list already 
attTrySet = indexSet - attSet 
#form into list 

attTry = [ii for ii in attTrySet] 
errorList = [] 

a 

# 


Ler 


ttTemp = [] 











try each attribute not in set to see which 
#one gives least oos error 

for iTry in attTry: 

attTemp = [] + attributeList 





attTemp.append (iTry) 
#use attTemp to form training and testing sub matrices 
fas list of lists 





xTrainTemp = xattrSelect(xListTrain, attTemp) 
xTestTemp = xattrSelect(xListTest, attTemp) 
#form into numpy arrays 

xTrain = numpy.array(xTrainTemp) 

yTrain = numpy.array(labelsTrain) 

xTest = numpy.array (xTestTemp) 

yTest - numpy.array(labelsTest) 





#use sci-kit learn linear regression 





wineQModel = linear model.LinearRegression() 





wineQModel.fit (xTrain, yTrain) 





#use trained model to generate prediction and calculate rmsError 











rmsError - numpy.linalg.norm((yTest-wineOModel.predict (xTest)), 


2)/sqrt (len(yTest)) 





errorList.append(rmsError) 


attTemp = [] 


iBest = numpy.argmin(errorList) 


attributeList.append(attTry[iBest]) 
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oosError.append(errorList[iBest]) 


print("Out of sample error versus attribute set size" ) 





( 

print (oosError) 
print("\n" + "Best attribute indices") 
print (attributeList) 


namesList = [names[i] for i in attributeList] 





print("\n" + "Best attribute names") 





print (namesList) 





#Plot error versus number of attributes 





x = range(len(oosError) ) 





plt.plot(x, oosError, 'k') 
plt.xlabel('Number of Attributes') 
plt.ylabel('Error (RMS)') 








plt.show() 


#Plot histogram of out of sample errors for best number of attributes 
#Identify index corresponding to min value, 

#retrain with the corresponding attributes 

#Use resulting model to predict against out of sample data. 


#Plot errors (aka residuals) 








indexBest = oosError.index(min(oosError) ) 


attributesBest = attributeList[1: (indexBest+1) ] 





#Define column-wise subsets of xListTrain and xListTest 
#and convert to numpy 
xTrainTemp = xattrSelect(xListTrain, attributesBest) 


xTestTemp = xattrSelect(xListTest, attributesBest) 





xTrain = numpy.array(xTrainTemp); xTest = numpy.array (xTestTemp) 


#train and plot error histogram 





wineQModel = linear model.LinearRegression () 


wineQModel .fit (xTrain, yTrain) 





rrorVector = yTest-wineQModel.predict (xTest) 





plt.hist (errorVector) 
plt.xlabel ("Bin Boundaries") 
plt.ylabel ("Counts") 
plt.show() 
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#scatter plot of actual versus predicted 
plt.scatter(wineOModel.predict(xTest), yTest, s=100, alpha=0.10) 
plt.xlabel('Predicted Taste Score") 








plt.ylabel('Actual Taste Score") 
plt.show() 


Lit FCR TE: Bae — 1 ERR PP. X XR PE P BUR PER OOP DP Python 的 列表 
list， 该 列表 的 每 个 元 素 也 是 一 个 列表 )。 然 后 该 函数 将 全 矩阵 与 标签 向 量 划 分 为 训练 集 和 
测试 集 。 之 后 ,代码 完成 前 面 描述 的 算法 。 算 法 的 遍历 从 属性 的 一 个 子 集 开始 。 第 一 遍 时 ， 
































该 子 集 为 空 。 对 于 后 续 的 遍历 ， 该 子 集 包含 上 一 次 遍历 选择 的 属性 。 每 一 次 壳 历 都 会 选择 
一 个 新 的 属性 添加 到 属性 子 集中 。 待 添加 的 属性 是 通过 对 每 一 个 非 包 含 的 属性 进行 测试 : 



































选择 添加 属性 以 后 性 能 提高 最 多 的 属性 。 每 一 个 属性 被 加 入 属性 子 集 以 后 ,使 用 

















普通 的 最 





小 二 乘法 来 拟 合 模型 。 对 每 一 个 测试 属性 ,在 预 留 样本 上 评估 性 能 。 产生 最 佳 根 损失 (RSS) 














的 属性 被 加 入 属性 集 ， 关 联 的 RSS 错误 也 会 进行 计算 。 
图 3-13 为 RMSE 与 用 于 回归 的 属性 个 数 之 间 的 函数 关系 。 在 9 个 属性 全 部 
以 前 ， 错 误 一 直 在 降低 ， 然 后 增加 。 
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图 3-13 ”使 用 前 向 逐步 区 


= 


3 方法 获得 的 红酒 品质 预测 





























代码 清单 3-4 为 前 向 逐步 回归 方法 应 用 于 酒 品质 量 预测 的 数值 输出 。 











包含 进来 


代码 清单 3-4 前 向 逐步 回归 
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的 输出 -fwdStepwiseWineOutput.txt 


Out of sample error versus attribute set size 
[0.7234259255116281, 0.68609931528371915, 0.67343650334202809, 
0.66770332138977984, 0.66225585685222743, 0.65900047541546247, 
0.65727172061430772, 0.65709058062076986, 0.65699930964461406, 
0.65758189400434675, 0.65739098690113373] 


Best attribute indices 


[10, 15 9 4, 6, 8, 5, 3; 27 77 0] 


Best attribute names 


['"alcohol"', '"volatile acidity"', '"sulphates"', '"chlorides"' 
'"total sulfur dioxide"', '"pH"', '"free sulfur dioxide"', 
'"residual sugar"', '"citric acid"', '"density"', '"fixed acidity"'] 


第 一 个 列表 (python 的 list 对象 ) 展示 了 RSS 错误 。 错 误 一 直 降 低 ， 直 到 将 第 10 个 


元 素 加 入 列表 ， 然 后 错误 变 高 。 
联 属性 的 名 称 ( 列 名 )。 


关联 的 列 索引 在 后 一 个 列表 中 给 出 。 最 后 的 列表 给 出 了 关 








3.4.3 评估 并 理解 你 的 预测 模型 


其 他 几 个 图 对 于 理解 一 个 学 





习 好 的 算法 性 能 非常 有 帮助 ， 这 些 图 指出 了 性 能 提升 的 途 








径 。 图 3-14 为 测试 集 上 每 个 点 的 实际 标签 值 与 预测 标签 值 的 散 点 图 。 在 理想 情况 下 ,图 3-14 





中 的 所 有 点 会 分 布 在 45 REALE, 
分 是 整数 ， 所 以 散 点 图 分 布 在 水 
据点 绘制 成 半 透 明 状 会 很 有 用 ， 




















这 条 线 上 的 真正 标签 与 预测 标签 是 相等 的 。 因 为 真正 得 
平方 向 上 。 如 果真 正 标签 分 布 在 少量 的 数值 上 ， 将 每 个 数 
一 个 区 域 的 颜色 深度 就 能 反映 点 的 堆积 程度 。 对 得 分 在 5 








和 6 上 的 实际 酒 品 的 预测 结果 非常 好 。 对 更 极端 的 值 ， 系 统 预测 效果 也 不 好 。 一 般 来 讲 ， 


机 器 学 习 算法 对 边缘 数据 的 预测 


效果 并 不 好 。 





图 3-15 为 前 向 逐步 预测 算法 对 酒 品 预测 的 错误 直方 图 。 有 时 错误 直方 图 会 有 2 个 其 


至 多 个 离散 的 波峰 ， 比 如 在 最 右 
寻找 错误 中 不 同 波峰 的 解释 ， 湛 

对 于 上 面 的 输出 结果 要 记 住 
是 指 训练 一 组 模型 (在 本 例 中 ， 























边 或 者 最 左边 有 一 个 小 的 波峰 。 在 这 种 情况 下 ， 可 以 继续 
加 能 够 辨识 归 类 的 新 属性 来 降低 预测 错误 。 

以 下 几 点 。 首 先 ， 重新 回顾 一 下 整个 学 习 过 程 ， 这 里 过 程 
模型 对 应 于 基于 式 的 列子 集 的 普通 线性 回归 )。 这 一 系列 












































模型 进行 了 参数 化 〈 本 例 中 ， 通 过 线性 模型 中 的 属性 个 数 进 行 区 分 )。 最 终 选 择 的 模型 在 








样本 外 的 错误 最 小 。 解 决 方案 中 
更 多 自由 参数 ， 相 对 于 低 复杂 度 





引入 的 属性 个 数 称 作 复杂 度 参 数 。 复 杂 度 更 高 的 模型 会 有 
的 模型 更 容易 对 数据 产生 过 拟 合 。 
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实际 口感 得 分 





4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 
预测 口感 得 分 














图 3-14 ”实际 口感 得 分 与 前 向 逐步 回归 生成 的 预测 口感 得 分 的 比较 
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3-15 ”使 用 前 向 逐步 回归 得 到 的 红酒 口感 预测 直方 图 






























































另外 注意 到 属性 已 经 根据 其 对 预测 的 重要 性 进行 了 排序 。 在 包含 列 编号 的 List 以 及 
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属性 名 的 List 中 ， 第 一 个 元 素 是 第 一 个 选择 的 属性 ， 第 二 个 元 素 是 第 二 个 选择 的 属性 ， 
以 此 类 推 。 用 到 的 属性 按 顺序 排列 。 这 是 机 器 学 习 任务 中 一 个 很 重要 并 且 必 需 的 特征 。 
早期 机 器 学 习 任 务 大 部 分 都 包括 寻找 (或 者 构建 ) 用 于 构建 预测 的 最 佳 属性 集 。 而 能 够 
对 属性 进行 排序 的 算法 对 于 上 述 任务 非常 有 帮助 。 本 书 中 介绍 的 其 他 算法 也 具备 本 特点 。 

最 后 一 点 是 挑选 模型 。 模 型 越 复杂 ， 泛 化 能 力 越 差 。 在 同等 情况 下 ， 倾 向 于 选择 不 大 
复杂 的 模型 。 前 面 例子 表明 从 第 9 个 模型 到 第 10 个 模型 的 性 能 下 降幅 度 很 小 (只 在 第 4 
位 有 变化 )。 最 佳 经 验 是 如 果 属性 添加 后 带 来 的 性 能 提升 只 达到 小 数 点 后 第 4 位 ， 那 么 保 
守 起 见 ， 可 以 将 这 样 的 属性 移 除 掉 。 


3.4.4 通过 惩罚 回归 系数 来 控制 过 拟 合 一 一 岭 回归 

本 节 描 述 了 另外 一 种 通过 修改 最 小 二 乘法 来 控制 模型 复杂 度 从 而 避免 过 拟 合 的 方法 。 
这 也 是 第 一 次 介绍 惩罚 线性 回归 方法 。 第 4 章 会 更 详细 地 介绍 。 

普通 最 小 二 乘法 的 目标 是 找到 能 够 满足 公式 3-14 的 标量 By 以 及 向 量 8。 

























































































Bop = agmina EG tA 
公式 3-14 OLS 对 应 的 最 小 化 问题 
符号 argmin 是 指 “能 够 最 小 化 表达 式 的 以 及 B”。 系数 po* 以 及 大 是 最 小 二 乘法 的 解 。 
最 佳 子 集 回归 以 及 前 向 逐步 回归 通过 限制 使 用 的 属性 个 数 来 控制 回归 的 复杂 度 。 另 外 一 种 


方法 称 作 惩罚 系数 回归 。 惩 罚 系数 回归 是 使 系数 变 小 ， 而 不 是 将 其 中 一 些 系数 设 为 0。 一 
种 惩罚 线性 回归 的 方法 被 称 作 怜 回归 。 怜 回归 问题 的 定义 见 公式 3-15, 














fcf = aramin, a| EË 9, (B+ sp) ol 





公式 3-15” 岭 回归 对 应 的 最 小 化 问题 











公式 3-15 以 及 普通 最 小 二 乘法 ( 见 公式 3-14) 的 差别 在 af B TLE, PRUE (Ax 
量 ) 的 欧 几 里 得 范 数 的 平方 。 变 量 8 是 这 类 问题 的 复杂 度 参数 。 如 果 a = 0， 问 题 变 为 普通 最 
小 二 乘法 。 如 果 aGEXA. B ARATE) 接近 于 0， 那么 通过 常数 项 就 可 以 预测 标签 y。 
scikitleam 包 给 出 了 岭 回归 的 实现 。 代 码 清单 3-5 为 使 用 岭 回归 来 解决 红酒 口感 回归 问题 的 代码 。 














代码 清单 3-5 ”使 用 岭 回 归 预 测 红 酒 口感 -ridgeWine.py 


, author = 'mike-bowles' 
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import urllib2 

import numpy 

from sklearn import datasets, linear model 
from math import sqrt 


import matplotlib.pyplot as plt 


#read data into iterable 


target url = ("http://archive.ics.uci.edu/ml/machine-learningdatabases/" 


"wine-quality/winequality-red.csv") 


data - urllib2.urlopen(target url) 





xList = [ 
labels = [] 
names - [ 
firstLine = True 


for line in data: 
if firstLine: 


names - line.strip().split(";") 





firstLine - False 
else: 
Split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append(float (row[-1])) 
remove label from row 


row.pop() 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


#divide attributes and labels into training and test sets 
indices = range(len(xList)) 


xListTest = [xList[i] for i in indices if i%3 == 0 | 








xListTrain = [xList[i] for i in indices if i%3 !- 0 ] 


labelsTest = [labels[i] for i in indices if i$3 -- 0] 








labelsTrain = [labels[i] for i in indices if i$3 != 0] 


xTrain = numpy.array(xListTrain); yTrain = numpy.array(labelsTrain) 





xTest = numpy.array(xListTest); yTest = numpy.array(labelsTest) 
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alphaList = [0.1**i for i in [0,1, 2, 3, 4, 5, 6]] 





rmsError = [] 
for alph in alphaList: 
wineRidgeModel = linear model.Ridge (alpha=alph) 





wineRidgeModel.fit(xTrain, yTrain) 











rmsError.append(numpy.linalg.norm((yTest-wineRidgeModel.predict( 


xTest)), 2)/sqrt(len(yTest))) 





print("RMS Error alpha") 





for i in range(len(rmsError)): 





print(rmsError[i], alphaList[i]) 


#plot curve of out-of-sample error versus alpha 





x — range(len(rmsError)) 





plt.plot(x, rmsError, 'k') 
plt.xlabel('-log(alpha)') 
plt.ylabel('Error (RMS)') 
plt.show() 





Scatter plot of actual versus predicted 


the corresponding value of alpha 








Plot errors (aka residuals) 





indexBest = rmsError.index(min(rmsError)) 
alph = alphaList[indexBest] 
wineRidgeModel = linear model.Ridge (alpha-alph) 








wineRidgeModel.fit(xTrain, yTrain) 


rrorVector - yTest-wineRidgeModel.predict (xTest) 





plt.hist(errorVector) 
plt.xlabel("Bin Boundaries") 
plt.ylabel("Counts") 
plt.show() 


plt.scatter(wineRidgeModel.predict(xTest), yTest, s-100, 











plt.xlabel('Predicted Taste Score') 





Identify index corresponding to min value, retrain with 


Plot histogram of out of sample errors for best alpha value and 


Use resulting model to predict against out of sample data. 


alpha=0.10) 
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plt.ylabel('Actual Taste Score") 
plt.show() 





回忆 一 下 前 向 逐步 回归 算法 生成 了 一 系列 不 同 的 模型 ， 第 一 个 模型 只 包含 一 个 属性 ， 第 
二 个 模型 包含 两 个 属性 ， 等 等 ， 直 到 最 后 的 模型 包含 所 有 属性 。 岭 回归 代码 也 包含 一 系列 的 
模型 。 岭 回归 通过 不 同 的 a 值 来 控制 模型 数量 ， 而 不 是 通过 属性 个 数 来 控制 。a 参数 决定 了 
对 8 的 惩罚 力度 。a 的 一 系列 值 按 照 10 的 倍数 递减 。 一 般 来 讲 , 你 希望 a 按照 指数 级 进行 递减 ， 
并 不 是 按照 一 个 固定 的 增 量 。a 的 取 值 范围 一 般 要 设置 得 足够 宽 ， 往 往 需要 通过 实验 来 确定 。 

图 3-16 为 RMSE 与 岭 回归 的 复杂 度 参 数 a 的 对 应 关系 。 参 数 按照 从 左 到 右 、 从 大 到 
小 排列 。 传 统 习 惯 是 一 般 在 左边 绘制 简单 模型 ， 在 右边 绘制 复杂 模型 。 图 3-16 显示 了 与 
逐步 前 向 回归 类 似 的 特点 。 错 误 几 乎 是 一 样 的 ,但 前 向 逐步 回归 的 错误 相 比 来 说 更 大 一 些 。 
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3-16 ”使 用 岭 回归 预测 红酒 品质 















































代码 清单 3-6 展示 了 来 自 岭 回归 的 和 输出。 数字 显示 怜 回归 与 前 向 逐步 回归 有 几乎 相同 
的 特点 。 数 据 更 加 支持 前 向 逐步 回归 。 





代码 清单 3-6 ”上 岭 回归 输出 -ridgeWineOutput.txt 





RMS Error alpha 
(0.65957881763424564, 1.0) 


O O oO O O © 


3.4 


-65786109188085928, 0.1) 
.65761721446402455, 0.010000000000000002) 
.65752164826417536, 0.0010000000000000002) 
.65741906801092931, 0.00010000000000000002) 
.65739416288512531, 1.0000000000000003e-05) 
.65739130871558593, 1.0000000000000004e-06) 
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图 3-17 为 在 红酒 数据 集 上 使 用 岭 回归 的 实际 口感 得 分 与 预测 得 分 的 散 点 图 。 图 3-18 
为 预测 错误 的 直方 图 。 





4.0 4.5 5.0 5.5 6.0 
预测 口感 得 分 
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3-17 ”使 用 岭 回归 的 实际 口感 得 分 




















与 预测 得 分 的 散 点 图 
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也 可 以 使 用 更 通用 的 方法 来 解决 分 类 问题 。3.3“ 度 量 预测 模型 性 能 ”讨论 了 量化 分 
类 性 能 的 方法 ， 包 括 使 用 误 分 类 错误 、 不 同 预测 结果 的 经 济 代价 以 及 曲线 (ROC | 


下 面积 





AUC 来 量化 性 能 。 












































1 线 ) 


本 节 使 用 普通 最 小 二 乘法 来 构建 分 类 器 。 代 码 清单 3-7 为 相同 类 型 的 Python 代码 。 与 


OLS 不 


个 大 的 


EH AUC 作为 分 类 器 的 性 能 度量 。 代 码 清 自 











É 3-7 RFA 


同 ， 它 使 用 岭 回 归 作 为 回归 方法 (使 用 一 个 复杂 度 控 制 参数 ) 来 构建 岩石 - 水 雷 分 


[ 酒 品质 预测 的 代码 。 一 














区 别 是 代码 清单 3-7 使 用 在 测试 数据 上 的 预测 以 及 对 应 的 实际 结果 作为 函数 roc 


curve (scikit-learn 包 中 的 函数 ) 的 输入 。 这 会 使 得 每 次 训练 完成 后 ，AUC 的 计算 变 得 更 
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加 简单 。 每 个 


点 的 错误 值 经 过 累加 ， 生 成 的 性 能 指标 被 打印 出 来 (参见 代码 清单 3-8) 。 
180 
160 
140 


120 






































图 3-18 ”使 用 岭 回 归 得 到 的 口感 预测 的 错误 直方 
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代码 清单 3-7 使 用 岭 回 归 进 行 岩 石 - 水 雷 分 类 -classifierRidgeRocksVMines.py 


_ autho 
import 
import 
from sk 
from sk 


import 


r = 'mike-bowles' 

urllib2 

numpy 

learn import datasets, linear model 


learn.metrics import roc curve, auc 


pylab as plt 


fread data from uci data repository 


target i 


"databa 
data = 


farrang 
xList - 
labels 


for lin 


url = ("https://archive.ics.uci.edu/ml/machine-earning-" 
ses/undocumented/connectionist-bench/sonar/sonar.all-data") 


urllib2.urlopen(target url) 


e data into list for labels and list of lists for attributes 
(] 
- [] 


e in data: 
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#split on comma 


row = line.strip().split(",") 
#assign label 1.0 for "M" and 0.0 for "R" 
if(row[-1] == 'M'): 


labels.append(1.0) 
else: 
labels.append(0.0) 
#remove lable from row 
row.pop() 
#convert row to floats 
floatRow = [float(num) for num in row] 


xList.append (floatRow) 


#divide attribute matrix and label vector into training(2/3 of data) 
fand test sets (1/3 of data) 
indices = range (len(xList)) 


xListTest = [xList[i] for i in indices if i%3 == ] 








xListTrain = [xList[i] for i in indices if i$3 != 0 ] 


labelsTest = [labels[i] for i in indices if i$3 == 0] 





labelsTrain = [labels[i] for i in indices if i$3 !- 0] 





#form list of list input into numpy arrays to match input class for 





#scikit-learn linear model 
xTrain = numpy.array(xListTrain); yTrain = numpy.array(labelsTrain) 


xTest = numpy.array(xListTest); yTest = numpy.array(labelsTest) 





alphaList = [0.1**i for i in [-3, -2, -1, 0,1, 2, 3, 4, 5]] 


aucList = [] 
for alph in alphaList: 
rocksVMinesRidgeModel - linear model.Ridge (alpha-alph) 





rocksVMinesRidgeModel.fit(xTrain, yTrain) 





fpr, tpr, thresholds - roc curve(yTest,rocksVMinesRidgeModel. 
predict (xTest)) 
roc auc - auc(fpr, tpr) 


aucList.append(roc auc) 


print("AUC alpha") 


for i in range (len (aucList)): 
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print (aucList[i], alphaList[i]) 


#plot auc values versus alpha values 
x = [e3, =2, =l 0515,24, 35 4, 5] 
plt.plot(x, aucList) 
plt.xlabel('-log(alpha)') 
plt.ylabel('AUC') 

plt.show() 


fvisualize the performance of the best classifier 
indexBest = aucList.index(max(aucList) ) 

alph = alphaList[indexBest] 

rocksVMinesRidgeModel - linear model.Ridge (alpha-alph) 





rocksVMinesRidgeModel.fit(xTrain, yTrain) 


#scatter plot of actual vs predicted 

plt.scatter (rocksVMinesRidgeModel.predict (xTest), 
yTest, s=100, alpha=0.25) 

plt.xlabel ("Predicted Value") 

plt.ylabel ("Actual Value") 

plt.show() 








代码 清单 3-8 为 AUC 以 及 对 应 的 alpha 值 (系数 惩罚 项 的 因子 )。 


代码 清单 3-8 ”使 用 岭 回归 得 到 的 岩石 - 水 雷 分 类 模型 的 输出 


D 
G 
Q 


alpha 

.84111384111384113, 999.9999999999999) 
.86404586404586403, 99.99999999999999) 
.9074529074529073, 10.0) 
.91809991809991809, 1.0) 
.88288288288288286, 0.1) 

.8615888615888615, 0.010000000000000002) 
.85176085176085159, 0.0010000000000000002) 
.85094185094185093, 0.00010000000000000002) 
.84930384930384917, 1.0000000000000003e-05) 


OG OG o0oo000c0 o0 coco 





AUC 的 值 接近 1 对 应 于 更 好 的 性 能 ， 接 近 于 0.5 说 明 效 果 不 太 好 。 使 用 AUC 的 目标 
是 使 其 最 大 化 而 不 是 最 小 化 ， 可 以 参照 之 前 例子 中 的 MSE。AUC 在 a =1.0 时 有 一 个 明显 











34 ”模型 与 数据 的 均衡 | 111 





的 突起 。 数 据 以 及 图 示 显 示 在 a 远离 1.0 时 有 明显 的 下 降 。 回 忆 一 下 随 着 a 变 小 ， 解 方 
案 接近 于 不 受 限 的 线性 回归 问题 。a 小 于 1.0 时 ， 性 能 下 降 表明 不 受 限 的 解难 以 达到 岭 
回归 的 效果 。 在 3.3 节 中 ， 可 以 看 到 不 受 限 普通 均 方 回归 的 结果 ， 其 中 AUC 在 训练 集 
上 的 预测 性 能 为 0.98， 在 测试 集 上 的 预测 性 能 为 0.85 ， 非 常 接近 于 使 用 较 小 的 alpha 的 
WEI (a 设 为 1E-5) 的 AUC 值 。 这 说 明 岭 回归 会 显著 提升 性 能 。 

对 于 岩石 - 水 雷 问题 ， 数 据 集 包含 60 个 属性 ， 总 共 208 行 数据 。 将 70 个 样本 移 
除 作 为 预 留 数 据 ， 剩 下 138 行 用 于 训练 。 样 本 数量 大 约 是 属性 数量 的 2 倍 ， 但 是 不 
受 限 解 (基于 普通 的 最 小 二 乘法 ) 仍然 会 过 拟 合 数据 。 这 时 使 用 10 折 交 叉 验 证 来 佑 
计 性 能 是 一 个 很 好 的 替换 方案 。 使 用 10 折 交 义 验 证 ， 每 一 份 数据 只 有 20 个 样本 ， 训 
练 数据 相对 测试 数据 就 会 多 很 多 ， 从 而 性 能 上 会 有 一 致 的 提升 。 该 方法 将 在 第 5 章 
讨论 。 

图 3-19 为 AUC 与 alpha 参数 的 关系 ， 该 图 展示 了 在 系数 向 量 上 使 用 欧式 长 度 限制 可 
以 降低 解 的 复杂 度 。 
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3-19 ”上 岭 回归 分 类 器 在 岩石 -~ 水 雷 数据 上 得 到 的 AUC 曲线 


图 3-20 为 实际 分 类 结果 与 分 类 器 预测 结果 的 散 点 图 。 该 图 与 红酒 预测 中 的 散 点 图 类 
似 。 因 为 实际 预测 的 输出 是 离散 的 ， 所 以 呈现 2 行 水 平 的 点 。 

本 介绍 并 探索 了 普通 最 小 二 乘法 的 2 种 扩展 方法 、 训 练 以 及 选择 一 个 现代 预测 模型 
的 过 程 。 这 些 扩展 方法 的 介绍 有 助 于 理解 更 普通 的 惩罚 线性 回归 方法 (将 在 第 4 章 中 介绍 )， 
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第 5 章 会 应 用 这 些 方法 来 解决 多 个 问题 。 
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图 3-20 ”对 岩石 -~ 水 雷 问题 使 用 岭 回 归 分 类 器 得 到 的 实际 结果 与 预测 结果 的 关系 





小 结 


本 章 首先 给 出 了 围绕 问题 复杂 性 以 及 模型 复杂 性 的 可 视 化 示例 ， 讨 论 了 这 些 因素 以 及 
数据 集 大 小 如 何 影响 给 定 问题 的 分 类 性 能 。 接 着 讨论 了 针对 不 同 问题 (回归 、 分 类 以 及 多 
分 类 ) 度量 预测 性 能 的 多 个 评价 指标 ， 这些 指标 也 是 函数 冯 近 问题 的 一 部 分 。 介 绍 了 用 于 
在 新 数据 上 评估 性 能 的 2 种 方法 (在 测试 集 上 评估 以 及 n 折 交 叉 验证 )、 机 器 学 习 生 成 一 
族 参数 化 模型 的 框架 ， 以 及 如 何 基于 测试 集 的 性 能 来 选择 实际 应 用 的 模型 。 后 续 以 普通 最 
小 二 乘法 为 例 ， 介 绍 相关 的 概念 框架 。 
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第 4 章 


惩罚 线性 回归 模型 





正如 第 3 章 中 所 看 到 的 ， 线 性 回归 在 实际 应 用 时 需要 对 普通 最 小 二 乘法 进行 一 些 修 
改 。 普 通 最 小 二 乘法 只 在 训练 数据 上 最 小 化 错误 ， 难 以 顾及 所 有 数据 。 第 3 章 的 例子 展 
示 了 普通 最 小 二 乘法 在 新 数据 集 上 的 效果 要 远 远 差 于 在 训练 集 上 的 效果 ， 以 及 普通 最 小 二 
乘法 的 2 种 扩展 方法 。 这 2 种 方法 都 涉及 减少 用 于 训练 最 小 二 乘法 的 数据 集 规模 以 及 预 留 
一 部 分 样本 来 对 性 能 进行 评估 ， 从 而 挑选 最 佳 模型 。 

前 面 逐 步 回归 基于 普通 最 小 二 乘法 ， 首 先 只 使 用 一 列 属性 来 构建 预测 ， 挑 选 效果 最 好 
的 一 列 。 后 续 继 续 添加 新 的 属性 到 现 有 模型 中 。 

岭 回 归 引 入 了 一 种 完全 不 同 的 限制 。 岭 回归 对 参数 维度 进行 惩罚 从 而 对 解 进行 限制 。 
上 岭 回 归 以 及 前 向 逐步 回归 在 样 例 问 题 上 的 效果 要 明显 好 于 普通 最 小 二 乘法 。 

本 章 将 介绍 一 族 用 于 克服 最 小 二 乘法 (OLS) 过 拟 合 问题 的 方法 。 这 些 方法 称 作 
惩罚 线性 回归 方法 。 第 3 章 介 绍 的 岭 回归 是 惩罚 线性 回归 的 一 个 特例 。 岭 回归 通过 对 
回归 系数 的 平方 和 进行 惩罚 来 避免 过 拟 合 。 其 他 惩罚 回归 算法 使 用 不 同形 式 的 惩罚 项 。 
本 章 将 介绍 惩罚 方法 是 如 何 确定 解 的 范围 以 及 解 的 类 型 。 








































































































4.1 为 什么 惩罚 线性 回归 方法 如 此 有 效 


下 面 几 个 特点 使 得 惩罚 线性 回归 方法 非常 有 效 。 
模型 训练 足够 快速 。 
变量 的 重要 性 信息 。 

部 署 时 的 预测 足够 快速 。 

在 各 种 问题 上 性 能 可 靠 ， 尤 其 对 样本 并 不 明显 多 于 属性 的 属性 和 矩阵， 或 者 
非常 稀 玻 的 矩阵 。 和 希望 模型 为 稀 玻 解 〈《 即 只 使 用 部 分 属性 进行 预测 的 音 再 
模型 ) 。 

€ 问题 可 能 适合 使 用 线性 模型 来 解决 。 

这 就 是 作为 机 器 学 习 模型 设计 者 应 该 了 解 的 关于 线性 模型 的 特点 。 
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4.1.1 足够 快速 地 估计 系数 

训练 时 间 的 重要 性 体现 在 下 面 几 个 方面 。 一 方面 是 因为 模型 的 构建 往往 是 迭代 进行 的 。 
你 会 发 现 模型 训练 是 特征 选择 以 及 特征 工程 的 基础 。 你 会 挑选 一 些 看 起 来 合理 的 特征 来 
训练 模型 并 且 在 预 留 数据 上 评估 模型 ， 接 下 来 想 继续 提升 性 能 ， 你 会 做 些 修改 ， 然 后 重 
复 尝试 上 面 过 程 。 如 果 基 本 的 训练 可 以 很 快 完成 ， 那 么 就 不 会 浪费 太 多 时 间 来 等 结果 (如 
果 喝 咖啡 的 话 ， 你 就 会 少 摄 入 太 多 的 咖啡 因 ， 提 升 健康 )。 这 会 使 得 开发 过 程 加 快 。 另 一 
方面 是 如 果 条 件 改变 的 话 ， 可 能 需要 重新 训练 模型 。 如 果 你 在 分 类 微 博 消息 ， 模 型 可 能 
需要 与 词汇 的 更 新 同步 。 如 果 你 在 训练 面向 金融 市 场 的 自动 交易 模型 ， 条 件 会 一 直 在 变 。 
即使 不 考虑 特征 重 构 ， 训 练 时 间 的 多 少 也 会 决定 你 的 应 变速 度 。 


412 ”变量 的 重要 性 信息 

本 书 涵盖 的 算法 类 型 可 以 导出 变量 的 重要 性 信息 。 变 量 的 重要 性 信息 包括 对 模型 属性 
进行 排序 。 属 性 顺序 表明 其 对 模型 的 价值 。 排 序 高 的 属性 要 比 排序 低 的 属性 对 模型 准确 度 
的 贡献 更 大 。 变 量 重要 性 是 一 个 关键 信息 。 首 先 ， 该 信息 在 特征 工程 中 有 助 于 对 属性 进行 
剪 校 。 好 的 特征 会 排 到 列表 前 面 ， 应 该 保留 ， 不 太 好 的 特征 会 排 到 最 后 ， 构 建 模型 时 可 以 
去 掉 除 了 对 特征 工程 有 帮助 ， 了 解 哪些 变量 在 驱动 着 预测 结果 可 以 帮助 你 去 更 好 地 理解 模 
型 以 及 向 其 他 人 【你 的 老板 、 你 的 客户 以 及 公司 领域 专家 等 ) 解释 模型 。 属 性 重要 性 与 人 
们 的 期 望 越 靠 近 ， 人 们 对 模型 的 效果 越 有 信心 。 如 果 一 些 排序 比较 奇怪 ， 你 可 能 对 问题 会 
有 新 的 认识 。 讨 论 关 于 属性 的 重要 性 可 以 为 提升 你 的 开发 团队 的 性 能 带 来 新 的 启发 。 
漠 由 快速 训练 以 及 计算 变量 重要 性 方面 的 优势 ， 对 于 任何 新 的 问题 都 可 以 先 尝 试 惩罚 
线性 回归 方法 ， 这 可 以 使 你 快速 了 解 问题 ， 并 决定 哪些 特征 是 有 用 的 。 


41.3 ”部署 时 的 预测 足够 快速 

对 一 些 问题 来 讲 ， 快 速 计算 预测 结果 是 一 个 关键 的 性 能 参数 。 在 一 些 电子 市 场 (如 互 
联网 广告 以 及 自动 交易 ) ， 先 得 到 答案 就 会 先 获 利 。 对 于 许多 其 他 应 用 〈 如 垃圾 过 滤 )， 尽 
管 答案 并 非 严格 是 否 ， 预 测 时 间 的 快慢 也 很 重要 。 不 论 哪 种 算法 ， 其 预测 速度 很 难 超越 线 
性 模型 。 线 性 模型 在 预测 时 ， 仅 需要 对 包含 的 每 个 属性 进行 一 次 相 乘 以 及 一 次 相 加 操作 。 


4.1.4 性 能 可 靠 

性 能 可 靠 意味 着 惩罚 线性 回归 方法 对 不 同 数据 分 布 及 不 同 数据 规模 的 问题 都 会 产生 一 
个 较 好 的 解 。 对 于 一 些 问题 ， 性 能 最 佳 。 在 部 分 情况 下 ， 使 用 一 点 技巧 ， 方 法 就 会 超过 其 
他 所 有 模型 。 本 章 会 对 这 些 技巧 做 一 些 讨论 。 第 6 章 也 会 讨论 该 话题 ， 并 介绍 使 用 惩罚 线 
性 回归 以 及 集成 方法 来 提升 性 能 的 思路 。 
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4.1.5 ff 

PRES PES ASS 0, ROSTER TMI, FIFE DA A 
"Ab. EERME, MR (GEOMAR BD) 更 容易 解释 ， 即 更 容易 看 到 模型 中 
的 哪些 属性 在 驱动 着 预测 结果 。 


4.1.6 问题 本 身 可 能 需要 线性 模型 

最 后 一 个 使 用 惩罚 线性 回归 的 原因 是 线性 模型 可 能 是 解决 方案 本 身 的 需要 。 保 险 支 付 
可 以 作为 需要 线性 模型 的 一 个 合子 ， 其 中 合同 往往 包含 支付 公式 ， 而 公式 本 身 又 包含 变量 以 
及 系数 。 如 果 使 用 集成 模型 ， 其 中 每 棵 树 有 一 千 个 参数 、 整 体 包含 数 千 棵 树 ， 那 么 这 样 的 模 
型 几乎 不 可 能 用 文字 解释 清楚 。 医 药 测试 是 另 一 个 需要 使 用 线性 形式 进行 统计 推断 的 例子 。 


4.1.7 ”什么 时 候 使 用 集成 方法 

不 使 用 惩罚 线性 回归 的 主要 原因 是 使 用 其 他 技术 可 能 获得 更 好 的 性 能 ， 比 如 集成 方法 。 
正如 第 3 章 指出 的 ， 集 成 方法 对 复杂 问题 (如 极度 不 规则 的 决策 曲面 ) 或 者 可 以 利用 大 
量 数据 进行 求解 的 问题 性 能 表现 最 佳 。 此 外 ， 集 成 方法 在 度量 变量 重要 性 时 ， 可 以 生成 
更 多 关于 属性 与 预测 结果 关系 的 信息 。 例 如 ， 集 成 方法 会 发 现 2 阶 甚至 更 高 阶 的 重要 性 信 
息 ， 即 哪些 变量 组 合 的 重要 性 大 于 单独 对 这 些 变量 的 重要 性 加 和 和。 这 些 信息 可 以 在 惩罚 线 
性 回归 的 基础 上 进一步 提升 性 能 。 第 6 章 会 详细 介绍 这 一 点 。 








































































































4.2 惩罚 线性 回归 : 对 线性 回归 进行 正则 化 以 获得 最 优 性 能 

正如 第 3 章 所 讨论 的 ， 本 书 解决 了 一 类 称 作 函数 逼近 的 问题 。 训 练 模型 的 起 始点 是 包 
含 大 量 样本 的 数据 集 。 每 个 实例 包含 结果 以 及 大 量 用 于 预测 结果 的 属性 。 第 3 章 给 出 了 一 
个 简单 的 例子 。 表 4-1 为 一 个 稍微 修改 的 例子 。 







































































表 4-1 样 例 训练 集 
gom 特征 1 特征 2 特征 3 
2013 年 的 花费 性 别 2012 年 的 划分 年 龄 
100 M 0 25 
225 F 260 32 
75 F 12 17 











因为 表 4-1 中 的 输出 是 实数 值 ， 所 以 该 问题 是 一 个 回归 问题 。 性 别 属性 (特征 1) 只 
能 取 2 个 值 ， 所 以 该 属性 为 类 别 属性 (或 者 方面 ) 属性 。 其 他 2 个 属性 是 数值 属性 。 矣 
数 逼 近 的 目标 是 : 构建 一 个 从 属性 到 输出 的 函数 ， 在 某 种 意义 下 最 小 化 错误 。 第 3 章 讨 
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论 过 一 些 其 他 的 错误 计算 公式 ， 这 些 备 选 方案 都 可 以 用 于 量化 整体 错误 。 

表 4-1 所 示 的 数据 集 经 常 被 表示 为 一 个 包含 结果 的 列 向 量 以 及 一 个 包含 属性 的 矩阵 (3 
列 特征 )。 将 结果 列 向 量 与 矩阵 合并 在 数学 上 容易 混淆 。 严 格 来 讲 ， 和 矩阵 包含 的 元 素 要 定 
义 在 相同 的 数据 类 型 上 。 和 矩阵 内 容 可 以 是 实数 、 整 数 、 复 数 以 及 二 元 数字 等 ， 但 它们 不 能 
是 实数 与 类 别 变量 的 混合 。 

这 里 有 一 个 要 点 需要 记 住 : 线性 方法 只 能 操作 数值 属性 。 表 4-1 中 的 数据 包含 非 数 值 
数据 , 因此 线性 方法 不 能 直接 应 用 。 幸 运 的 是 , 将 表 4-1 中 的 数据 转换 为 数值 数据 相对 简单 。 
在 4.4.4 节 中 ， 我 们 会 学 习 将 类 别 属性 转换 为 数值 属性 的 编码 技术 。 如 果 属 性 全 部 为 实数 
值 (不 论 是 最 初 问题 定义 ， 还 是 通过 将 类 别 属性 转换 为 实数 值 )， 那 么 线性 回归 问题 的 数 
据 可 以 通过 2 个 对 象 来 表示 :了 上 和民 ， 其 中 了 是 一 个 包含 结果 的 列 向 量 ， 工 是 一 个 实数 矩阵 。 










































































Ji 
ya” 
3 
公式 4-1 结果 向 量 
对 于 表 4-1 中 的 例子 ， 了 是 结果 列 。 
Xu Xiz Xim 
X Tu n Xn 





公式 4-2 ”属性 矩阵 


对 于 表 4-1 的 例子 , X 是 将 结果 列 排除 后 的 剩余 列 集合 。 

Y (y i) 的 第 i 个 元 素 对 应 于 XX 的 第 i 行 。X 的 第 i 行使 用 包含 下 标的 xi 表 示 , x i8 cx 
记 x_im)。 普 通 最 小 二 乘法 的 目标 是 最 小 化 yi 与 xi (X 的 第 i 行 属性 ) 的 线性 函数 之 间 的 错误 ， 
即 找到 实数 向 量 p 以 及 标量 如 ， 从 而 使 得 来 自 了 的 每 个 元 素 yi 可 以 通过 公式 4-4 来 近似 。 























Bi 


p= [^ 


公式 4-3 p- 模型 系数 向 量 
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Prediction of y, =x, *B-, 
= Xi *B, TX "Bs t+ Xin “Pm +2, 
AR 4-4 X 与 Y 的 线性 关系 
你 也 可 以 利用 你 的 经 验 知 识 来 寻找 到 值 。 在 表 4-1 中 ， 可 能 你 会 觉得 人 们 2013 年 
会 比 2012 年 多 消费 10 美元 ， 即 他 们 购买 量 年 均 增 长 10%， 甚 至 新 生 儿 也 会 购买 50 美元 
的 书 。 这 些 信 息 就 可 以 构建 图 书 消费 的 预测 公式 ， 类 似 公 式 4-5。 











2013 年 的 花 销 =$50+ 1.1* ($ 2012 年 的 花 销 ) + $10 *Age 





公式 4-5 ”预测 图 书 销售 

















公式 4-5 并 不 使 用 性 别 属性 ， 因 为 它 是 一 个 类 别 变量 (这 方面 处 理会 在 “引入 非 数值 
属性 到 线性 方法 ”中 介绍 ， 目 前 暂时 忽略 )。 公 式 4-5 生成 的 预测 并 不 能 精确 匹配 表 4-1 
中 的 结果 (实际 数量 )。 


4.2.1 训练 线性 模型 : 最 小 化 错误 以 及 更 多 

即使 你 能 手动 检查 6 的 值 ， 一 般 手动 寻找 1 值 也 不 是 最 佳 方式 。 对 于 许多 问题 ， 变 量 
数目 以 及 变量 间 的 关系 使 得 猜测 8 的 值 不 可 行 。 所 以 一 般 方 法 是 通过 解 最 小 化 问题 来 找到 
属性 乘 子 。 最 小 化 问题 是 找到 使 得 均 方 误差 最 小 (但 不 是 0) AY BE. 

公式 4-4 的 两 边 完全 相等 就 意味 着 模型 已 经 过 拟 合 。 公 式 4-4 的 右 侧 是 你 要 训练 的 预 
测 模型 。 该 模型 的 含义 是 : 为 了 构建 一 个 预测 ， 把 每 一 个 属性 乘 以 对 应 的 系数 ， 加 起 来 
再 加 一 个 常数 。 训 练 意味 着 找到 构成 向 量 8 以 及 常量 By 的 数值 。 错 误 被 定义 为 六 的 实际 
值 与 y 的 预测 值 之 间 的 差异 ( 见 公 式 4-4)。 均 方 误差 是 将 所 有 样本 的 错误 归 约 到 一 个 数 。 
之 所 以 选择 错误 的 平方 是 因为 错误 不 区 分 正 负 ， 而 平方 函数 从 数学 上 求解 更 加 方便 。 普 通 
最 小 二 乘法 的 定义 变 为 找到 fx 以 及 px (上 标 * 表明 这 些 值 是 8 的 最 佳 值 )， 能 够 满足 公 
式 4-6。 
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os la 3 
FF = argminp (10, - GAY 
公式 4-6 OLS 对 应 的 最 小 化 问题 
符号 argmin 是 指 “使 表达 式 最 小 的 参数 "， 加 和 是 在 行 上 进行 ， 其 中 一 行 包括 属性 
值 以 及 对 应 的 标签 。0? 中 的 表达 式 是 以 及 用 于 近似 y, 的 线性 函数 值 之 间 的 错误 。 对 于 


2013 年 购书 方面 的 花费 预测 ， 加 和 中 的 表达 式 对 应 于 结果 值 减 去 通过 公式 4-4 计算 得 到 
的 预测 值 。 
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公式 4-6 可 以 用 如 下 语言 描述 :向量 beta 是 以 及 常量 beta 零星 是 使 期 望 预测 的 均 方 
错误 最 小 的 值 ， 期 望 预测 的 均 方 错误 是 指 在 所 有 数据 行 ( 二 1,.…,n) 上 计算 yy; 与 预测 生成 
儿 之 间 的 错误 平方 的 平均 。 公 式 4-5 的 最 小 化 生成 了 回归 模型 的 最 小 均 方 误差 值 。 该 机 咒 
学 习 模 型 对 应 于 一 组 实数 ， 即 向 量 1* 以 及 标量 fo* 中 的 数字 。 


4.2.2 向 OLS 公式 中 添加 一 个 系数 惩罚 项 

惩罚 线性 回归 问题 的 数学 声明 非常 类 似 于 公式 45。 第 3 章 介绍 岭 回归 时 给 出 了 惩罚 
线性 回归 的 一 个 例子 。 岭 回归 向 公式 4-5 的 普通 最 小 二 乘法 添加 了 一 个 惩罚 项 。 怜 回归 的 
惩罚 项 如 公式 4-7 所 示 。 
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公式 4-7 应 用 于 系数 (beta) 的 惩罚 项 

















公式 4-6 的 OLS 问题 是 选择 能 最 小 化 均 方 误差 的 6。 惩 罚 回归 问题 ( 即 公式 4-7) 向 
公式 4-6 的 右 侧 添 加 系数 惩罚 项 。 最 小 化 会 考虑 尽量 平衡 均 方 误差 以 及 系数 平方 值 ， 而 这 
两 方面 的 目标 往往 是 相互 矛盾 的 。 只 考虑 系数 本 身 很 容易 最 小 化 系数 平方 : 令 每 个 系数 
都 等 于 0。 但 那样 会 导致 较 大 的 预测 错误 。 类 似 地 ，OLS 的 解 可 以 使 预测 错误 最 小 化 ， 但 
可 能 导致 系数 惩罚 项 变 大 ， 取 决 于 4 的 值 有 多 大 。 
为 什么 这 样 做 是 有 意义 的 ?为 了 加 深 理 解 ， 回 想 一 下 第 3 章 的 子 集 选择 过 程 。 子 集 选 
择 通过 丢弃 一 些 属性 来 消除 过 拟 合 ， 实 际 等 同 于 将 这 些 属 性 的 对 应 系数 设 为 0。 惩罚 回归 
改 同 样 的 事情 ， 但 与 子 集 选择 直接 将 一 些 属性 系数 设 为 0 不同， 惩罚 线性 回归 将 每 个 属性 
系数 都 减少 一 些 。 下 面 一 些 例子 将 帮助 对 该 方法 进行 可 视 化 。 

参数 4 的 取 值 范围 为 0 — 9e, WRA, 惩罚 项 就 消失 了 , 问题 变 为 普通 最 小 二 乘 问题 。 
如 果 4 一， 关于 B 的 惩罚 就 变 得 非常 严格 ,会 使 p 就 趋 近 于 0。( 注 意 到 Pp。 并 没有 包含 
在 惩罚 项 中 ， 所 以 预测 变 为 一 个 常数 值 ， 与 输入 x OX). 

正如 第 3 章 例子 所 示 ， 怜 惩罚 项 也 可 以 将 一 些 属性 排除 在 外 。 这 个 过 程 是 通过 为 惩罚 
版 的 最 小 化 问题 生成 一 族 解 来 实现 的 ， 即 对 不 同 的 4 值 都 求解 一 个 惩罚 最 小 化 问题 。 每 
个 解 都 在 样本 外 数据 上 进行 测试 , 能 够 最 小 化 样本 外 错误 的 解 作为 最 终 解 , 用 于 后 续 预 测 。 
第 3 章 介绍 了 使 用 岭 回归 的 一 系列 步骤。 


42.3 ”其 他 有 用 的 系数 惩罚 项 : Manhattan 以 及 ElasticNet 
上 岭 惩罚 项 对 于 惩罚 回归 来 说 并 不 是 唯一 有 用 的 惩罚 项 。 任 何 关 于 向 量 长 度 的 指标 都 可 
以 。 使 用 不 同 的 长 度 指标 可 以 改变 解 的 重要 性 。 岭 回归 应 用 欧式 几何 的 指标 ( 即 B 的 平方 
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和 )。 另 外 一 个 有 用 的 算法 称 作 套 索 (Lasso) 回归 ， 该 回归 源 于 出 租车 的 几何 路 径 被 称 作 
曼哈顿 距离 或 者 LIENE (BIA 的 绝对 值 的 和 )。 套 索 回归 的 一 些 属性 非常 有 用 。 

岭 回 归 以 及 套 索 回归 的 差异 在 于 对 ( 即 线性 系数 向 量 ) 的 惩罚 上 。 上 岭 回归 使 用 欧式 
距离 的 平方 ， 即 8 元 素 的 平方 和 进行 惩罚 。 套 索 使 用 8 元素 绝 对 值 的 加 和 : 称 作出 租车 
或 者 曼哈顿 距离 。 岭 惩罚 项 是 连接 原点 与 空间 点 太 的 直线 的 长 度 平 方 。 套 索 惩 罚 项 类 似 于 
出 租车 在 城市 穿行 需要 正 南 正 北 或 者 正 西 正 东 的 移动 这 样 产 生 的 距离 。 套 索 惩 罚 项 的 公式 
如 下 。 























A A 


公式 4-8 基于 曼哈顿 距离 的 惩罚 项 的 公式 








B,\) 











两 条 垂直 线 称 作 正则 线 。 它 们 用 于 定义 向 量 或 者 操作 符 的 维度 。 正 则 线 的 脚 标 1 称 作 
1, 正则 化 ， 对 应 绝对 值 的 和 。 常 使 用 大 写 的 Ll 来 标记 。 脚 标 为 2 的 正则 线 对 应 平方 和 的 
开 方 根 一 一 欧式 距离 。 不 同 的 系数 惩罚 函数 在 生成 解 时 存在 一 些 重要 差异 。 一 个 主要 差异 
是 : 套 索 的 系数 向 量 1* 是 稀 琉 的 ， 意 味 着 对 于 不 同 的 4 值 ， 许 多 系数 等 于 0。 相 比 之 下 ， 
上 岭 回归 5* 向 量 值 是 密集 的 ， 大 部 分 不 等 于 0。 


4.24 为 什么 套 索 惩罚 会 导致 稀疏 的 系数 向 量 
稀 琉 性 与 系数 惩罚 函数 的 直接 关系 如 图 4-1 和 图 4-2 所 示 。 这 些 图 是 针对 含有 2 个 属 
性 xl 5 32 的 问题 。 
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B, 个 B, 


未 惩罚 的 最 小 值 未 惩罚 的 最 小 值 






预测 错误 等 高 线 


















































> > 
Bi By 
惩罚 值 等 高 线 惩罚 值 等 高 线 
图 4-1 使 用 平方 系数 和 惩罚 项 的 最 优 解 图 4-2 使 用 系数 绝对 值 和 的 惩罚 项 的 最 优 解 





























图 4-1 与 图 4-2 包含 2 组 曲线 集合 。 一 组 曲线 集合 是 同心 椭圆 ， 代 表 公 式 4-6 中 的 最 








120 | 第 4 章 ”惩罚 线性 回归 模型 





小 均 方 误差 。 椭 圆 代表 等 高 线 ， 线 上 的 均 方 和 为 常数 。 可 以 将 这 些 椭圆 想象 为 地 面 上 呈 椭 
圆 四 陷 的 地 图 。 对 于 更 接近 于 中 心 的 椭 贺 ， 错 误会 变 小 ， 正 如 四 陷 的 海拔 高 度 会 随 目 陷 方 
向 变 小 。 四 陷 的 最 小 点 使 用 x 进行 标记 。 在 没有 系数 惩罚 项 时 ,该 点 对 应 于 最 小 二 乘法 的 解 。 

图 4-1 及 图 4-2 的 曲线 集合 代表 公式 4-7 和 公式 4-9 的 系数 惩罚 项 ， 分 别 是 岭 惩 罚 项 
和 套 索 惩罚 项 。 在 图 4-1 中 ， 代 表 系 数 惩罚 项 的 曲线 是 以 原点 为 中 心 的 圆 。 平 方 和 等 于 常量 ， 
限定 了 pi 以 及 B. 是 位 于 圆 上 的 点 。 常 数 惩罚 项 的 曲线 形状 由 使 用 的 距离 性 质 决定 : 基于 
平方 和 的 惩罚 项 对 应 于 圆 〈 称 作 超 球面 或 者 高 维 空间 的 球面 )， 基 于 绝对 值 和 的 惩罚 
ST IPE (RA l 球面 )。 小 的 圆 (RAZE) 对 应 于 较 小 的 距离 函数 。 形 状 虽 然 
由 惩罚 函数 的 性 质 决 定 ， 但 是 每 条 曲线 关联 的 值 由 非 负 参 数 4 来 决定 。 假 设 图 4-1 中 的 
2 条 曲线 分 别 对 应 平方 和 (B... A) 为 1.0 和 2.0 的 情况 。 如 果 4 =1， 那 么 和 2 个 圆圈 关联 
的 惩罚 项 为 1 和 2。 如 果 4 =10， 那 么 关联 的 惩罚 项 为 10 和 20。 图 4-2 中 的 葵 形 结果 也 相 
同 。 增 加 入 也 会 增加 与 图 4-2 相关 的 惩罚 项 。 

椭圆 环 (对 应 于 预测 错误 平方 ) 离 不 受 限 的 最 小 值 (图 中 的 x 标记 ) 越 远 ， 椭 圆 环 也 
变 得 越 大 。 正 如 公式 4-6 所 示 ， 最 小 化 这 2 个 函数 的 和 对 应 于 在 预测 错误 最 小 化 以 及 系数 
惩罚 最 小 化 之 间 寻 求 一 种 平衡 。 较 大 的 4 值 会 更 多 地 考虑 最 小 化 惩罚 项 〈 所 有 系数 为 0)。 
较 小 的 4 值 会 使 得 最 小 值 接近 于 不 受 限 的 最 小 预测 错误 (图 4-1 及 图 4-2 的 x)。 

这 就 是 系数 平方 和 的 惩罚 项 与 绝对 值 和 的 惩罚 项 之 间 的 区 别 。 公 式 4-6 以 及 公式 4-8 
的 最 小 值 往往 会 落 在 惩罚 常数 曲线 与 预测 错误 曲线 的 切 点 上 。 图 4-1 与 图 4-2 为 相 切 的 2 
个 例子 。 重 要 一 点 是 在 图 4-1 中 ， 随 着 4 变化 以 及 最 小 点 的 移动 ， 平 方 惩罚 项 产生 的 切 点 
一 般 不 会 落 在 坐标 轴 上 。p Sf 都 不 为 0。 相 比 之 下 ， 在 图 4-2 中 ， 绝 对 值 和 惩罚 项 产生 
的 切 点 落 在 了 所. AVA. Æp E, 250, 

一 个 稀 玻 的 系数 向 量 相当 于 算法 告诉 你 可 以 忽略 一 些 因 变量 。 当 4 足够 小 时 , 2,5 B. 
的 最 优 值 会 远离 p, 轴 ,这 2 个 值 都 是 非 0 值 。 较 小 的 惩罚 项 会 使 得 不 等 于 0， 给 出 了 
记 与 Bi 的 顺序 。 从 某 种 意义 上 讲 ,PB, 要 比 P 重 要， 因为 随 着 4 变 大 ,pp, 的 值 不 等 于 0。 
回想 一 下 这 些 系数 会 乘 以 属性 。 如 果 对 应 于 属性 的 系数 为 0， 算法 告诉 你 该 属性 的 重要 性 
要 差 于 非 0 的 属性 。 通 过 从 大 到 小 遍历 4 值 ， 就 可 以 根据 重要 性 对 属性 进行 排序 。 下 一 节 
会 通过 一 个 具体 例子 来 说 明 ， 并 提供 Python 代码 比较 属性 的 重要 性 ， 而 属性 重要 性 是 公 
式 4-8 求解 的 一 部 分 。 


4.2.5 ElasticNet 惩罚 项 包含 套 索 惩罚 项 以 及 岭 惩 罚 项 

在 了 解 如 何 计 算 这 些 系数 之 前 ， 需 要 知道 惩罚 回归 问题 的 泛 化 定义 ， 即 ElasticNet 形 
式 化 。 惩 罚 回 归 问 题 的 ElasticNet 形式 是 使 用 一 个 可 调节 的 岭 回归 以 及 套 索 回 归 的 混合 。 
ElasticNet 引入 一 个 额外 参数 a 用 于 控制 岭 惩罚 项 以 及 套 索 惩罚 项 的 比例 。a =1 表示 只 使 
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用 套 索 惩罚 ， 不 使 用 岭 惩 罚 。 使 用 ElasticNet 形式 ， 在 求解 线性 模型 系数 之 前 , 4 以 及 a 
必须 提前 确定 。 一 般 来 讲 ， 确 定 4 以 及 wx 参数 的 方法 是 先 确 定 a 值 ， 然 后 尝试 使 用 不 同 的 
4 值 。 会 在 后 续 看 到 这 样 计算 的 原因 。 

在 许多 情况 下 ， 对 a =1、a =0 或 者 一 些 中 间 值 的 wk， 算法 性 能 差异 并 不 大 。 但 有 时 差 
异 会 很 明显 ， 这 就 需要 选择 不 同 的 a 值 来 确保 不 必要 的 性 能 牺牲 。 


4.3 求解 惩罚 线性 回归 问题 


在 前 面 章节 中 ， 我 们 看 到 求解 惩罚 线性 回归 模型 等 价 于 求解 一 个 优化 问题 。 有 大 量 通 
用 的 数值 优化 算法 可 以 求解 公式 4-6、 公 式 4-8 以 及 公式 4-11 对 应 的 优化 问题 ， 但 是 惩罚 
线性 回归 问题 的 重要 性 促使 研究 人 员 开 发 专用 算法 ， 从 而 能 够 非常 快 地 生成 解 。 本 章 将 对 
这 些 算法 进行 介绍 并 且 运 行 相关 代码 ， 这 样 可 以 帮助 理解 每 种 算法 的 运行 机 制 。 本 章 将 介 
绍 2 种 算法 : 最 小 角度 回归 LARS 以 及 Glmnet。 之 所 以 选择 这 2 种 算法 是 因为 它们 之 间 
相互 关联 ， 并 且 和 前 面 介 绍 的 方法 ， 如 上 岭 回 归 以 及 前 向 逐步 回归 密切 相关 。 此 外 ， 它 们 训 
练 速度 都 非常 快 ， 并 且 Python 包 中 已 经 有 相关 实现 。 第 5 章 会 使 用 Python 包 来 引入 这 些 
算法 求解 样 例 问 题 。 


4.3.1 理解 最 小 角度 回归 与 前 向 逐步 回归 的 关系 

一 种 非常 快速 聪明 的 算法 是 最 小 角度 回归 (LARS) 算法 ， 该 算法 由 Bradley Efron, 
Trevor Hastie, Iain Johnstone, Robert Tibshirani 等 人 发 明 (http://en.wikipedia.org/wiki/Least- 
angle regression), LARS 算法 可 以 理解 为 一 种 改进 的 前 向 逐步 回归 算法 。 

1. 前 向 逐步 回归 算法 

€ 将 6 的 所 有 值 初始 化 为 0。 

在 每 一 步 中 

€ 使 用 已 经 选择 的 变量 找到 残 差 值 。 

€ 确定 哪个 未 使 用 的 变量 能 够 最 佳 的 解释 残 差 ， 将 该 变量 加 入 选择 变量 中 。 

LARS 算法 与 前 向 逐步 回归 算法 非常 类 似 。LARS 与 前 向 逐步 回归 算法 的 主要 差异 
是 LARS 在 引入 新 属性 时 上 只 是 部 分 引入 ， 引 入 属性 过 程 并 非 不 可 闭 。LARS 算法 过 程 
如 下 。 

2. 最 小 角度 回归 算法 (LARS) 

€ 将 6 的 所 有 值 都 初始 化 为 0。 

在 每 一 步 中 

€ 决定 哪个 属性 与 残 差 有 最 大 的 关联 。 

€ 如 果 关 联 为 正 ， 小 幅度 增加 关联 系数 ， 关 联 为 负 ， 小 幅度 减少 关联 系数 。 
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LARS 算法 求解 的 问题 与 之 前 问题 稍微 不 同 。 然 而 ， 它 生成 的 解 与 套 索 基 本 相同 ， 即 
使 结果 存在 差异 ， 差 异 也 相对 较 小 。 之 所 以 介绍 LARS 算法 是 因为 该 算法 非常 接近 于 套 索 
以 及 前 向 逐步 回归 ,LARS 算法 很 容易 理解 并 且 实 现 起 来 相对 紧凑 。 通 过 研究 LARS 的 代码 ， 
你 会 理解 针对 更 一 般 的 ElasticNet 回归 求解 的 具体 过 程 ， 并 且 会 了 解 惩罚 回归 求解 的 细节 。 
实现 LARS 算法 的 代码 如 代码 清单 4-1 所 示 。 
































代码 清单 4-1 用 于 预测 红酒 口感 的 LARS 算法 -larsWine2.py 


, author = 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import datasets, linear model 

from math import sqrt 

import matplotlib.pyplot as plot 

fread data into iterable 

target url = ("http://archive.ics.uci.edu/ml/machine-learningdatabases/" 
"wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 





xList = [ 
labels = [] 
names = [ 
firstLine = True 


for line in data: 
if firstLine: 


names = line.strip().split(";") 





firstLine = False 
else: 
split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop() 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 
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#Normalize columns in x and labels 


nrows = len(xList) 





ncols = len(xList[0]) 


#calculate means and variances 


xMeans = [] 

xSD = [] 

for i in range(ncols): 
col = [xList[j][i] for j in range (nrows) ] 
mean = sum(col)/nrows 


xMeans.append (mean) 

colDiff = [(xList[j] [i] - mean) for j in range (nrows)] 

sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows) ]) 
stdDev = sqrt (sumSq/nrows) 


xSD. append (stdDev) 


#use calculate mean and standard deviation to normalize xList 
xNormalized = [] 
for i in range (nrows): 
rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncols)] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - 
meanLabel) for i in range (nrows)])/nrows) 

labelNormalized = [(labels[i] - meanLabel)/sdLabel \ 


for i in range (nrows)] 


#initialize a vector of coefficients beta 
beta = [0.0] * ncols 


#initialize matrix of betas at each step 
betaMat = [] 


betaMat.append(list (beta) ) 


#number of steps to take 
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nSteps = 350 
stepSize = 0.004 


for i in range (nSteps): 
#calculate residuals 
residuals = [0.0] * nrows 
for j in range(nrows): 
labelsHat = sum([xNormalized[j][k] * beta[k] 
for k in range (ncols)]) 


residuals[j] = labelNormalized[j] - labelsHat 


#calculate correlation between attribute columns from 





#normalized wine and residual 


corr = [0.0] * ncols 


for j in range (ncols): 


corr[j] = sum([xNormalized[k][j] * residuals[k] ^ 
for k in range(nrows)]) / nrows 
iStar = 0 
corrStar - corr[0] 


for j in range(1, (ncols)): 
if abs(corrStar) < abs(corr[j]): 


iStar = j; corrStar = corr[j] 


beta[iStar] += stepSize * corrStar / abs(corrStar) 


betaMat.append(list (beta) ) 


for i in range(ncols): 
#plot range of beta values for each attribute 
coefCurve = [betaMat[k] [i] for k in range(nSteps) ] 
xaxis = range (nSteps) 


plot.plot(xaxis, coefCurve) 





plot.xlabel ("Steps Taken") 
plot.ylabel ( ("Coefficient Values") ) 
plot.show() 
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代码 主要 包括 3 个 部 分 ， 这 里 先 简单 介绍 ， 后 续 会 详细 说 明 。 

(1) 读 入 数据 以 及 列 名 称 ， 将 数据 转换 为 属性 列表 (Python 的 list 对象， 每 个 元 素 对 
应 一 个 样 例 ， 该 样 例 使 用 包含 属性 的 list 对 象 表示 ) 以 及 标签 。 

(2) 对 属性 以 及 标签 进行 归 一 化 。 

(3) 对 问题 进行 求解 获得 结果 B* Bo *。 

第 一 段 代码 用 于 读 和 人 整个 文件 ， 将 文件 头 分 离 出 来 ， 使 用 符号 “;” 获 得 文件 头 分 隔 
的 属性 名 列表 ,将 剩 下 的 行 切 分 为 浮 点 数列 表 , 将 所 有 记录 封装 为 列表 (一 行 记录 ) 的 列表 ， 
将 标签 封装 为 列表 。 对 这 些 数据 结构 使 用 Python 的 列表 (list) 类 型 ， 是 因为 算法 要 对 行 
和 列 进行 遍历 ， 而 Pandas 的 数据 帧 类 型 对 这 个 目的 来 说 太 慢 。 

第 2 段 代码 使 用 第 2 章 的 归 一 化 方法 。 在 第 2 章 中 ， 属 性 归 一 化 的 目的 是 将 属性 值 转 
换 为 同等 太 度 ， 从 而 可 以 方便 地 绘制 以 及 充分 填充 坐标 。 在 惩罚 线性 回归 中 ， 归 一 化 一 般 
作为 第 一 步 ， 原 因 大 致 相同 。 

LARS 算法 的 每 一 步 都 会 固定 增加 8 变量 值 。 属 性 尺度 不 同 ， 固 定 增 量 对 不 同属 性 的 
影响 也 不 同 。 同 样 ， 如 果 改 变 一 个 属性 的 尺度 〈 从 英里 变 为 英尺 ) ， 答 案 会 显著 不 同 。 因 
为 这 些 原 因 ， 和 您 罚 线性 回归 包 一 般 使 用 第 2 章 中 的 加 权 方 法 ， 即 归 约 到 0 均值 ( 减 去 平均 
值 )、 单 位 方差 (用 标准 方差 去 除 )。 算 法 包 一 般 也 会 提供 非 归 一 化 的 选项 ， 但 是 很 少 听 
说 不 进行 归 一 化 有 什么 优势 。 

第 3 节 以 及 最 后 一 节 代码 用 于 求解 席 、p*。 因 为 算法 运行 在 归 一 化 的 变量 上 ， 因 此 
不 需要 截 距 f。*。 截 距 po* 一 般 用 于 表示 标签 值 与 加 权 属 性 值 之 间 的 差异 。 因 为 所 有 属性 
已 经 被 归 约 到 0 均值， 所 以 标签 与 加 权 属 性 的 期 望 没 有 偏差 ，p。* 就 不 再 需要 了 。 注 意 到 
^H 2 ^ beta 相关 的 列表 被 初始 化 。 一 个 称 作 beta， 其 中 元 素 个 数 与 属性 个 数 相同 。 另 一 
个 是 类 似 于 矩阵 - 列表 的 列表 - 用 于 存储 LARS 算法 每 一 步 生成 的 beta 列表 。 这 些 都 涉及 
了 惩罚 线性 回归 以 及 现代 机 器 学 习 算法 的 重要 概念 。 


4.3.2 LARS 如 何 生 成 数 百 个 不 同 复杂 度 的 模型 

一 般 现代 的 机 器 学 习 算 法 ， 尤 其 是 惩罚 线性 回归 方法 会 生成 多 组 解 ， 不 仅 是 单个 解 。 
回顾 公式 4-6、 公 式 4-8 以 及 公式 4-11。 公 式 的 左 侧 是 8-, 右 侧 是 通过 数据 求解 得 到 的 数值 。 
在 公式 4-6 以 及 公式 4-8 中 ， 参 数 41 需要 通过 其 他 方式 确定 。 正 如 这 些 公 式 中 所 指定 的 ， 当 
4=0 时 ,问题 变 为 最 小 二 乘法 , 24 A — 0, p* 一 0。 所 以 8 值 取决 于 公式 4-6、 公 式 4-8 
以 及 公式 4-11 中 的 参数 4。 

LARS 算法 并 不 会 显 式 处 理 1， 但 会 有 同样 效果 。LARS 算法 从 p=0 开始 ， 只 要 中 
的 某 一 个 系数 能 够 最 大 程度 地 减少 错误 ， 那 么 该 系数 对 应 增加 。 被 添加 的 增 量 会 提升 6 整 
体 的 绝对 值 和 。 如 果 增 量 较 小 并 且 被 用 在 最 佳 属性 上 ， 该 过 程 就 具有 求解 公式 4-8 对 应 的 
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最 小 化 问题 的 效果 。 可 以 在 代码 清单 4-1 中 追踪 该 过 程 。 

基本 返 代 过 程 只 包含 几 行 代码 , 从 for 循环 开始 迭代 半 步 。 返 代 的 起 始点 是 的 一 个 值 。 
第 一 遍 ， 所 有 值 被 设 为 0。 后 续 遍 历 , 使 用 上 一 次 迭代 的 结果 。 每 次 迭代 包括 2 步 。 首 先 ， 
使 用 8 计算 残 差 ， 残 差 是 指 观测 结果 与 预测 结果 的 差异 。 在 该 例 中 ， 预 测 结果 值 等 于 属性 
值 乘 以 系数 然后 加 和 。 第 2 步 找到 每 个 属性 与 残 差 的 关联 ， 从 而 决定 哪个 属性 对 降低 残 差 
贡献 最 大 。2 个 变量 的 关联 值 等 于 归 一 化 〈( 减 去 均值 后 除 以 标准 差 ) 值 的 乘积 。 

如 果 2 个 变量 完全 相关 ， 比 如 一 个 变量 是 另 一 个 变量 的 缩放 版 ， 那 以 正 的 缩放 对 应 于 正 
关联 ， 负 的 缩放 对 应 于 负 关 联 。 如 果 2 个 变量 相互 独立 ， 那 么 他 们 的 关联 系数 为 0。 维基 百 
科 对 关联 的 解释 (http://en.wikipedia.org/wiki/Correlation and dependence) 展示 变量 相互 关联 的 
例子 。 列 表 com 包含 每 个 属性 的 计算 结果 。 你 可 能 注意 到 严格 来 讲 ， 代 码 忽 略 了 对 均值 、 残 
差 以 及 归 一 化 属性 的 标准 差 的 计算 。 这 里 之 所 以 还 有 效 是 因为 属性 已 经 被 提前 归 一 化 为 标准 
差 为 1 的 值 ,并 且 因 为 这 些 值 被 用 于 寻找 最 大 关联 ,将 所 有 值 乘 以 一 个 常数 不 会 影响 变量 顺序 。 

旦 关联 计算 完成 ， 决 定 哪个 属性 与 残 差 有 最 大 关联 (绝对 值 最 大 ) 就 变 得 简单 。p 
列表 中 的 对 应 元 素 会 增加 一 点 。 如 果 关 联 为 正 ， 增 量 就 为 正 ， 和 否则 增 量 为 负 。 之 后 利用 
的 新 值 再 进行 迭代 计算 。 

LARS 算法 生成 的 结果 如 图 4-3 中 的 曲线 所 示 。 对 图 进行 理解 可 以 按照 如 下 的 方法 : 
沿 着 迭代 方向 想象 有 一 个 点 ， 在 该 点 上 ， 一 条 垂直 线 会 穿 过 所 有 系数 曲线 。 垂 直线 与 系数 
曲线 相交 的 值 是 LARS 算法 在 该 步 得 到 的 系数 。 如 果 生 成 曲线 需要 350 步 ， 对 应 就 会 有 
350 个 系数 集合 。 每 个 集合 是 针对 特定 4、 对 公式 4-8 进行 优化 获得 的 结果 。 这 也 产生 了 

个 问题 : 就 是 使 用 哪个 集合 是 最 优 的 。 该 问题 会 在 稍 后 进行 解答 。 
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图 4-3 ”在 红酒 数据 上 LARS 回归 的 系数 曲线 
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注意 到 对 于 前 25 2, RA—SARRUEIEO, OTTER ARTO. Ben 
于 0 的 属性 是 酒精 ， 在 此 后 的 一 段 时 间 内 ， 这 是 LARS 回归 唯一 使 用 的 变量 。 随 着 迭代 步 数 
的 增加 ， 第 2 个 变量 开始 出 现 ， 这 样 的 过 程 一 直 持 续 到 所 有 变量 被 包含 到 解 中 。 系 数 远离 0 
的 过 程 可 以 看 作 是 变量 重要 性 的 反映 。 在 某 些 情况 下 ， 如 果 要 去 掉 一 些 变量 的 预测 ， 就 应 该 
尽量 去 掉 后 面 出 现 的 而 不 是 开始 出 现 的 变量 。 























重点 中 的 重点 

生成 变量 重要 性 排序 是 惩罚 线性 回归 模型 的 一 个 重要 特征 。 这 使 得 该 模型 成 为 模型 初步 研究 中 的 一 
个 便捷 的 工具 ， 因 为 它们 将 帮助 构建 关于 保留 哪个 变量 、 丢 弃 哪个 变量 的 决定 ， 这 个 过 程 也 称 作 特 
征 工程 。 你 会 在 后 续 看 到 树 集成 同样 会 产生 变量 重要 性 的 度量 。 不 是 所 有 的 机 器 学 习 方 法 都 会 生成 
此 类 信息 。 虽 然 你 总 是 可 以 通过 尝试 所 有 组 合 ， 如 1 个 变量 、2 个 变量 等 等 来 生成 关于 特征 的 重要 
性 信息 ， 但 即使 对 只 有 10 个 属性 的 红酒 数据 集 来 说 ， 人 遍历 所 有 可 能 子 集 也 需要 10 的 阶乘 这 么 多 次 
的 训练 ， 这 对 算法 来 讲 是 不 可 实现 的 。 
































4.3.3 MAAS LARS 生成 结果 中 选择 最 佳 模型 

目前 关于 利用 红酒 的 化 学 属性 上 来 预测 红酒 口感 得 分 ,已 经 有 350 个 可 能 的 解 。 如 何 
选择 最 佳 的 解 ? 为 了 选择 使 用 的 曲线 ， 你 需要 了 解 350 个 选择 中 每 种 选择 的 优 劣 。 正 如 第 
3 章 所 讨论 的 ， 性 能 是 指 在 样本 外 数据 上 的 性 能 。 第 3 章 列 出 了 几 种 在 预 留 数据 上 评估 性 
能 的 方法 。 代 码 清 单 4-2 展示 了 执行 10 折 交叉 验证 的 代码 来 决定 部 署 使 用 的 最 佳 系数 集合 。 

10 折 交 叉 验 证 是 将 输入 数据 切 分 为 10 份 几乎 均等 的 数据 ， 将 其 中 一 份 数据 移 除 ， 使 
用 剩 下 数据 进行 训练 ， 然 后 再 在 移 除 的 数据 上 进行 测试 。 通 过 遍历 10 份 数据 ， 每 次 移 除 
一 份 数据 用 于 测试 ， 从 而 可 以 对 错误 进行 估计 从 而 估计 预测 的 变化 情况 。 









































代码 清单 4-2 ”利用 10 折 交 又 验证 来 确定 最 佳 系 数 集合 一 larsWineCV.py 


, author  - 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import datasets, linear model 
from math import sqrt 


import matplotlib.pyplot as plot 


#read data into iterable 
target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 


"databases/wine-quality/winequality-red.csv") 
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data = urllib2.urlopen(target_url) 


xList 
labels = [] 


ll 
= 


names = [] 

firstLine = True 

for line in data: 
if firstLine: 


names = line.strip().split(";") 





firstLine = False 
else: 
split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop () 











convert row to floats 
floatRow = [float (num) for num in row] 
xList.append (floatRow) 


#Normalize columns in x and labels 


nrows = len(xList) 





ncols = len(xList[0]) 


#calculate means and variances 


xMeans = [] 

xSD = [] 

for i in range (ncols): 
col = [xList[j][i] for j in range (nrows)] 
mean = sum(col)/nrows 


xMeans.append (mean) 


colDiff = [(xList[j][i] - mean) for j in range(nrows)] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows)]) 
stdDev = sqrt(sumSq/nrows) 


xSD.append (stdDev) 


#use calculated mean and standard deviation to normalize xList 
xNormalized = [] 


for i in range (nrows): 
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rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] \ 
for j in range(ncols) ] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) 
for i in range (nrows)])/nrows) 

labelNormalized = [(labels[i] - meanLabel)/sdLabel \ 


for i in range (nrows)] 


fBuild cross-validation loop to determine best coefficient values. 





#number of cross-validation folds 


nxval = 10 


#number of steps and step size 
nSteps = 350 
stepSize = 0.004 


#initialize list for storing errors. 
errors = [] 
for i in range(nSteps): 

b - dl 


errors.append(b) 


for ixval in range (nxval): 


#Define test and training index sets 


n 


idxTest = [a for a in range(nrows) if a$nxval == ixval*nxval] 


i 





idxTrain = [a for a in range(nrows) if aSnxval != ixval*nxval] 


#Define test and training attribute and label sets 





xTrain - [xNormalized[r] for r in idxTrain] 
xTest = [xNormalized[r] for r in idxTest] 
labelTrain = [labelNormalized[r] for r in idxTrain] 








labelTest = [labelNormalized[r] for r in idxTest] 


fTrain LARS regression on Training Data 
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nrowsTrain = len(idxTrain) 





nrowsTest = len(idxTest) 





#initialize a vector of coefficients beta 


beta = [0.0] * ncols 


#initialize matrix of betas at each step 
betaMat = [] 
betaMat.append (list (beta) ) 


for iStep in range(nSteps): 
#calculate residuals 
residuals = [0.0] * nrows 
for j in range(nrowsTrain): 
labelsHat = sum([xTrain[j][k] * beta[k] 
for k in range (ncols)]) 


residuals[j] = labelTrain[j] - labelsHat 


#calculate correlation between attribute columns 


#from normalized wine and residual 





corr = [0.0] * ncols 


for j in range (ncols): 


corr[j] = sum([xTrain[k][j] * residuals[k] \ 
for k in range(nrowsTrain)]) / nrowsTrain 
iStar = 0 
corrStar - corr[0] 


for j in range(1, (ncols)): 
if abs(corrStar) « abs(corr[j]): 


iStar = j; corrStar = corr[j] 


beta[iStar] += stepSize * corrStar / abs(corrStar) 


betaMat.append(list (beta) ) 


#Use beta just calculated to predict and accumulate out of 
#sample error - not being used in the calc of beta 
for j in range (nrowsTest): 


labelsHat = sum([xTest[j][k] * beta[k] for k in range 


4.3 求解 惩罚 线性 回归 问题 | 131 


incols) |} 
err = labelTest[j] - labelsHat 


errors[iStep].append(err) 


cvCurve = [] 


for errVect in errors: 





mse = sum([x*x for x in errVect])/len(errVect) 


cvCurve.append (mse) 


minMse = min(cvCurve) 





minPt = [i for i in range(len(cvCurve)) if cvCurve[i] == minMse ] [0] 





print("Minimum Mean Square Error", minMse) 





print("Index of Minimum Mean Square Error", minPt) 


xaxis = range (len(cvCurve)) 


plot.plot(xaxis, cvCurve) 


plot.xlabel("Steps Taken") 








plot.ylabel(("Mean Square Error")) 
plot.show() 


Printed Output: 
("Minimum Mean Square Error', 0.5873018933136459) 








('Index of Minimum Mean Square Error', 311) 


利用 交叉 验证 进行 模型 选择 

代码 清单 4-2 类 似 于 代码 清单 4-1。 在 交叉 验证 循环 中 〈 循 环 nxval 次 )， 这 种 差异 逐 
渐变 得 清晰 。 在 本 例 中 ，nxval=10， 当 然 ，nxval 可 以 设置 为 其 他 值 。 关 于 交叉 验证 份 数 
的 选择 ， 如 果 份 数 较 少 ， 那 么 每 次 训练 使 用 的 数据 也 较 少 。 如 果 设 为 5 折 ， 那 么 每 次 训 
练 时 会 预 留 20% 的 数据 。 如 果 使 用 10 折 ， 只 会 留 出 10% 的 数据 。 正 如 第 3 章 所 看 到 的 ， 
在 较 少 的 数据 上 训练 会 降低 算法 的 准确 性 。 然 而 ， 切 分 份 数 过 多 也 意味 着 在 训练 过 程 中 需 
要 多 次 遍历 ， 这 会 显著 增加 训练 时 间 。 

在 进行 交叉 验证 循环 前 ， 首 先 初 始 化 一 个 错误 列表 。 该 错误 列表 包含 LARS 算法 中 每 
BERN. MERIMA 10 折 交 叉 验证 的 每 折 错 误 进行 累加 。 在 交 义 验证 循环 中 ， 
你 会 看 到 训练 集 和 测试 集 的 生成 过 程 。 这 里 使 用 一 个 取 模 函数 来 定义 这 些 集合 。 在 有 些 情 
况 下 ， 需 要 使 用 分 层 抽样 。 例 如 要 在 一 个 非 平衡 数据 集 上 构建 分 类 器 ， 其 中 某 一 类 的 样本 
点 很 少 。 如 果 希 望 训练 集 能 够 代表 整个 数据 集 ， 那 么 需要 按照 类 来 抽样 数据 ， 从 而 确保 样 
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本 内 和 样本 外 的 类 大 小 比例 一 致 。 

你 可 能 倾向 于 使 用 一 个 随机 甬 数 来 定义 训练 集 和 测试 集 ， 但 是 要 清楚 数据 集中 的 任何 
模式 都 可 能 影响 抽样 过 程 〈 即 如 果 观 测 不 是 可 交换 的 )。 例 如 ， 如 果 数 据 是 在 每 周 的 工作 
日 进行 采集 ， 那 么 使 用 5 折 交 又 验证 的 取 余 函数 可 能 导致 一 个 集合 包含 所 有 周一 ， 另 一 个 
集合 包含 所 有 周二 ， 等 等 。 

在 交 义 验证 的 每 一 份 数据 上 累加 错误 以 及 评估 结果 

一 旦 训练 集 和 测试 集 定义 好 ，LARS 算法 的 迭代 就 可 以 开始 。 该 过 程 和 代码 清单 4-1 
类 似 ， 但 也 存在 一 些 区 别 : 首先 ， 算 法 的 基本 和 迭代 在 训练 集 上 展开 ， 而 不 是 在 所 有 数据 
集 上 展开 ， 其次， 对 于 每 次 从 代 ， 每 份 数 据 上 的 测试 错误 使 用 \beta 当前 值 、 数 据 属性 以 
及 数据 标签 计算 得 到 ， 对 应 代码 在 交叉 验证 循环 的 最 底 端 。B 每 次 更 新 时 ， 在 测试 集 上 重 
复 上 述 过 程 ， 将 错误 累加 到 “error” 列 表 中 ， 此 后 对 每 个 列表 进行 平方 取 平 均 就 变 得 简 
单 。 代 码 最 终 会 生成 一 条 曲线 , 曲线 上 的 每 个 点 与 每 次 大 代 的 均 方 误差 (MSE) 值 相对 应 ， 
MSE 是 在 10 份 数 据 上 得 到 的 MSE 的 平均 值 。 

你 可 能 会 担心 测试 数据 是 否 被 合理 使 用 。 一 定 要 防止 把 测试 数据 引入 训练 过 程 ， 有 多 
种 方式 可 能 会 违背 该 限制 。 最 主要 的 是 ， 要 确保 测试 数据 不 能 在 计算 p 的 增 量 时 使 用 , B 的 
增 量 计算 只 能 使 用 训练 数据 。 
关于 模型 选择 以 及 训练 次 序 的 实际 考虑 

MSE 曲线 与 LARS 迭代 步 数 的 关系 如 图 4-4 所 示 。 该 曲线 展示 了 一 个 非常 普遍 的 模 
式 。 基 本 上 MSE 随 着 迭代 步 数 的 增加 而 单调 递减 。 严 格 来 讲 ， 从 程序 的 输出 来 看 ， 最 小 
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图 4-4 在 红酒 数据 上 LARS 算法 的 均 方 误差 ( 基于 交叉 验证 的 错误 评估 ) 
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值 在 第 311 步 左右 。 但 是 该 图 显示 最 小 值 比 较 稳定 ,相对 周围 没有 明显 突出 。 在 某 些 情况 下 ， 
该 曲线 会 在 某 个 点 上 到 达 一 个 明显 的 最 小 值 ， 往 左 或 者 往 右 都 会 显著 增加 。 使 用 交叉 验证 
来 决定 350 个 解 中 ，LARS 生成 的 哪个 解 应 该 用 于 构建 预测 。 在 本 全 中， 最 小 值 在 第 311 
WER, pRB 311 个 系数 集合 可 以 用 于 实际 部 署 。 关 于 部 署 时 具体 使 用 哪个 解 ， 一 般 倾 
向 于 使 用 较为 保守 的 方案 。 对 于 惩罚 回归 来 讲 ， 保 守 的 解 意味 着 系数 值 较 小 的 解 。 按 照 惯 
例 ， 对 样本 外 性 能 ， 简 单 模型 一 般 在 左边 ， 复 杂 模 型 一 般 在 右边 。 简 单 模型 往往 有 更 好 的 
泛 化 性 能 ， 即 它们 对 新 数据 的 预测 更 为 准确 。 更 保守 的 模型 在 样本 外 数据 上 的 性 能 一 般 出 
现在 图 的 左边 。 

代码 中 的 LARS 算法 以 及 交叉 验证 首先 遍历 整个 数据 集 ， 然 后 运行 交叉 验证 。 实 际 上 ， 
你 很 可 能 先 运行 交叉 验证 ， 然 后 在 整个 数据 集 上 训练 模型 。 交 又 验证 的 目的 是 估计 模型 能 
够 到 达 的 MSE 性 能 值 , 并 了 解数 据 集 能 够 支持 学 习 怎 样 复杂 度 的 模型 。 如 果 你 能 回忆 起 来 ， 
第 3 章 讨 论 过 数据 集 大 小 以 及 模型 复杂 度 的 问题 。 交 叉 验 证 (或 者 其 他 基于 预 留 数据 进 
行 性 能 评估 ) 用 来 确定 部 署 模 型 的 复杂 度 。 注 意 是 复杂 度 而 不 是 特定 模型 ( 即 并 不 是 8 的 
特定 取 值 )。 正 如 在 代码 清单 4-2 中 所 看 到 的 ， 使 用 10 折 交 叉 验 证 ， 实 际 训练 了 10 个 模 
型 ， 在 10 个 模型 中 ， 无 法 决定 哪个 是 最 佳 模型 。 好 的 经 验 是 在 完整 数据 集 上 训练 ， 使 用 
交叉 验证 确定 部 署 哪个 模型 。 对 于 代码 清单 4-2 中 的 例子 ， 交 又 验 证 在 训练 阶段 的 第 311 
步 取 到 MSE 的 最 小 值 0.59。 图 4-5 的 系数 曲线 是 在 整个 数据 集 上 训练 得 到 的 。 因 为 并 不 
了 解 350 个 系数 集合 的 哪 一 个 〈 见 图 4-5) 应 该 被 部 署 使 用 ， 所 以 使 用 交叉 验证 确定 。 交 叉 
验证 会 生成 对 MSE 的 合理 估计， 告诉 我 们 将 第 311 个 模型 从 训练 集 部 署 到 整个 数据 集 上 。 


4.3.4 使 用 Glmnet : 非常 快速 并 且 通 用 

glmnet 算法 由 Jerome Friedman 教授 以 及 他 的 同事 们 在 斯 坦 福 大 学 开发 。glmnet 算法 
解决 公式 4-11 给 出 的 ElasticNet 问题 。 回 忆 一 下 ElasticNet 算法 引入 对 惩罚 函数 的 泛 化 ， 
包括 套 索 惩罚 〈 绝 对 值 加 和 ) 以 及 岭 惩罚 (平方 和 )。ElasticeNet 通过 参数 4 来 决定 系数 
惩罚 项 相对 于 拟 合 错 误 的 重要 程度 。 算 法 同时 包括 参数 a， 该 参数 用 于 决定 惩罚 项 与 岭 回 
H (a=0) 以 及 套 索 回归 (a=1) 的 接近 程度 。glmnet 算法 生成 了 完整 的 系数 曲线 ， 类 似 于 
LARS 算法 。 只 要 LARS 算法 将 系数 累加 量 加 入 6， 就 能 使 曲线 前 进 ，glmnet 算法 会 稳定 
减少 4 来 推进 系数 曲线 。 公 式 4-9 为 Friedman 论文 中 的 关键 公式 : 求解 公式 11 中 的 权重 
系数 的 迷 代 公式 一 一 ElasticNet 公式 。 
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公式 4-9 glmnet 算法 按照 坐标 的 更 新 
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公式 4-9 对 应 于 Friedman 论文 中 的 公式 5 与 公式 8 的 组 合 〈 假 设 你 们 对 数学 感 兴 
趣 )。 看 上 去 比较 复杂 ， 但 是 仔细 观察 会 发 现 与 上 一 节 的 LARS 方法 存在 一 定 的 关系 和 
相似 性 。 


Glmnet E LARS 算法 工作 原理 的 比较 

公式 4-9 为 6 更 新 的 基本 公式 。LARS 更 新 公式 是 找到 与 残 差 关联 最 大 的 属性 并 小 幅 
增加 (减少 ) 对 应 系数 。 修 改 后 的 公式 4-9 稍微 麻烦 一 些 。 它 使 用 一 个 第 头 而 不 是 一 个 等 号 。 
箭头 表示 “被 映射 到 ”。 注 意 到 Bp, 出 现在 箭头 的 两 边 。 箭头 右 侧 是 老 的 6 值 , 箭 头 左 边 ( 箭 
头 所 指 方向 ) EB “的 新 值 。 经 过 若干 次 遍历 (对 应 于 公式 4-12 PER), p 停止 改变 ， 
此 时 算法 针对 给 定 的 4 以 及 wx 收敛 到 了 最 终 解 。 现 在 是 时 候 讨 论 一 下 系数 曲线 了 。 

首先 应 该 注意 的 是 加 和 中 的 xjr; 项。xjri 在 i 上 相 加 ( 即 在 数据 的 行 上 计算 ) 生成 了 
第 j 个 属性 与 残 差 的 关联 。 回 忆 一 下 LARS 回归 算法 的 每 一 步 ， 计 算 每 个 属性 与 残 差 的 关 
联 。 在 LARS 算法 中 ， 通 过 考虑 所 有 关联 值 来 确定 哪个 属性 与 残 差 的 关联 最 大 ， 增 加 关 
联 最 大 的 属性 系数 。 使 用 glmnet 算法 ， 关 联 计 算 稍微 不 同 。 
使 用 glmnet， 与 残 差 的 关联 用 于 计算 系数 的 变化 幅度 。 但 是 在 Bp 改变 前 ， 需 要 遍历 
函数 SO. PASO 是 套 索 系数 缩减 函数 。 该 函数 在 图 4-5 中 绘制 。 正 如 你 在 图 4-5 看 到 的 ， 
如 果 第 1 个 输入 小 于 第 2 个 输入 ， 则 输出 为 0。 如 果 第 一 个 输入 大 于 第 2 个 输入 ， 则 输出 
变 为 第 1 个 输入 减 去 第 2 维度 上 的 输入 。 这 个 称 作 软 限制 。 
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代码 清单 4-3 为 glmnet 算法 的 代码 。 可 以 看 到 用 于 更 新 1 的 公式 4-12 是 如 何 用 来 生 





43 ”求解 惩罚 线性 回归 问题 | 135 











成 ElasticNet 系数 曲线 的 。 代 码 清单 4-3 中 的 公式 编号 与 Friedman 论文 一 致 。 论 文 可 以 在 
网 上 找到 ， 如 果 感 兴趣 可 以 查阅 更 多 的 数学 细节 。 


初始 化 并 且 进 行 GImnet 算法 的 迭代 

和 迭代 从 一 个 较 大 的 4 值 开 始 。4 足够 大 使 得 所 有 有 等 于 0。 公 式 4-9 给 出 如 何 计算 4 
的 起 始点 。 对 于 公式 4-12 的 函数 SO， 如 果 第 1 个 输入 Gor, 的 关联 ) 小 于 第 2 个 输入 a, 
则 函数 输出 为 0。 和 迭代 从 5 都 等 于 0 开始 ， 此 时 残 差 等 于 标签 值 。 决 定 lambda 初始 值 的 
流程 为 : 首先 计算 每 个 属性 与 标签 的 关联 ， 找 到 关联 值 最 大 的 属性 ， 使 最 大 关联 刚好 等 
于 4x 来 求解 4 的 值 。 这 就 是 4 的 最 大 值 ， 该 值 导 致 8 的 所 有 值 都 等 于 0。 

接着 迭代 从 减少 4 开始 ， 使 用 稍微 小 于 1 的 系数 乘 以 1 来 完成 。Friedman 建议 乘 子 最 
好 满足 A^100 = 0.001， 此 时 乘 子 大 约 等 于 0.93。 如 果 算 法 运行 很 长 时 间 都 没有 收敛 ， 那 
么 增加 4 的 乘 子 使 其 接近 于 1, Friedman 的 代码 实现 将 步 长 从 100 增加 到 200， 经 过 200 
步 使 得 起 始点 4 从 1 降 为 0.001。 在 代码 清单 4-3 中 ， 可 以 直接 控制 乘 子 大 小 。 系 数 曲线 如 
图 4-8 所 示 。 






































代码 清单 4-3 Glmnet 3 -glmnetWine.py 


, author = 'mike-bowles' 


import urllib2 
import numpy 
from sklearn import datasets, linear model 
from math import sqrt 
import matplotlib.pyplot as plot 
def S(z, gamma): 

if gamma >= abs(z): 

return 0.0 


return (z/abs(z))*(abs(z) - gamma) 


#read data into iterable 
target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 


xList = [ 
labels = [] 





names = [ 


firstLine = True 
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for line in data: 
if firstLine: 
names = line.strip().split(";") 
firstLine = False 
else: 
split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop() 











convert row to floats 
floatRow = [float (num) for num in row] 
xList.append (floatRow) 


#Normalize columns in x and labels 


nrows = len(xList) 





ncols = len(xList[0]1]) 


#calculate means and variances 


xMeans - [] 

XSD = [] 

for i in range(ncols): 
col = [xList[j] [i] for j in range(nrows) ] 
mean = sum(col)/nrows 


xMeans.append (mean) 


colDiff = [(xList[j][i] - mean) for j in range(nrows) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows)]) 
stdDev = sqrt (sumSq/nrows) 


xSD.append (stdDev) 


fuse calculate mean and standard deviation to normalize xList 
xNormalized = [] 
for i in range (nrows): 
rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] 
for j in range (ncols)] 


xNormalized.append(rowNormalized) 


#Normalize labels 
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meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - 
meanLabel) for i in range(nrows)])/nrows) 

labelNormalized - [(labels[i] - meanLabel)/sdLabel for i in 


range (nrows)] 


#select value for alpha parameter 


alpha = 1.0 





#make a pass through the data to determine value of lambda that 
# just suppresses all coefficients. 


#start with betas all equal to zero. 


xy = [0.0]*ncols 
for i in range (nrows): 
for j in range (ncols): 


xy[j] += xNormalized[i][j] * labelNormalized[i] 


maxXY = 0.0 

for i in range(ncols): 
val = abs(xy[i])/nrows 
if val > maxXY: 


maxXY = val 


#calculate starting value for lambda 


lam = maxXY/alpha 


#this value of lambda corresponds to beta = list of O's 
#initialize a vector of coefficients beta 


beta = [0.0] * ncols 


#initialize matrix of betas at each step 
betaMat = [] 
betaMat.append(list (beta) ) 


#begin iteration 
nSteps = 100 
lamMult = 0.93 #100 steps gives reduction by factor of 1000 in 
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# lambda (recommended by authors) 


for iStep in range(nSteps): 





= lam * lamMult 


deltaBeta = 100.0 


eps 


= 0.01 


iterStep = 0 


betaInner = list (beta) 


whil 





deltaBeta > eps: 
iterStep t= 1 
if iterStep > 100: break 


#cycle through attributes and update one-at-a-time 
#record starting value for comparison 
betaStart = list(betaInner) 


for iCol in range (ncols): 


xyj = 0.0 
for i in range (nrows): 
#calculate residual with current value of beta 
labelHat = sum([xNormalized[i] [k]*betaInner[k] 
for k in range (ncols)]) 


residual = labelNormalized[i] - labelHat 


xyj += xNormalized[i][iCol] * residual 


uncBeta = xyj/nrows + betaInner[iCol] 
betaInner[iCol] = S(uncBeta, lam * alpha) / (1 + 
lam * (1 - alpha) ) 


sumDiff = sum([abs(betaInner[n] - betaStart[n]) 
for n in range(ncols)]) 
sumBeta = sum([abs(betaInner[n]) for n in range (ncols)]) 


deltaBeta = sumDiff/sumBeta 


print(iStep, iterStep) 
beta = betaInner 





coefficient becomes non-zero 
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fadd newly determined beta to list 
betaMat.append (beta) 





#keep track of the order in which the betas become non-zero 
nzBeta = [index for index in range(ncols) if beta[index] !- 0.0] 
for q in nzBeta: 

if (q in nzList) -- False: 


nzList.append(q) 


#print out the ordered list of betas 
nameList = [names[nzList[i]] for i in range(len(nzList))] 


print (nameList) 


nPts = len(betaMat) 

for i in range (ncols): 
#plot range of beta values for each attribute 
coefCurve = [betaMat[k] [i] for k in range (nPts)] 
xaxis - range (nPts) 


plot.plot(xaxis, coefCurve) 





plot.xlabel("Steps Taken") 
plot.ylabel(("Coefficient Values")) 
plot.show() 


#Printed Output: 

f['"alcohol"', '"volatile acidity"', '"sulphates"', 

#'"total sulfur dioxide"', '"chlorides"', '"fixed acidity"', '"pH"', 
#'"free sulfur dioxide"', '"residual sugar"', '"citric acid"', 


f'"density"'] 














图 4-8 为 代码 清单 4-3 生成 的 系数 曲线 。 该 曲线 接近 于 LARS 生成 的 曲线 ( 见 图 4-6), 
类 似 但 不 相同 。LARS 以 及 套 索 常常 生成 相同 曲线 ， 但 有 时 结果 不 同 。 决 定 哪 种 方法 好 的 
值 一 方式 是 在 样本 外 数据 集 上 测试 ， 观 察 哪 种 方法 性 能 更 好 。 

套 索 模型 的 开发 过 程 与 LARS 算法 相同 ， 使 用 第 3 章 的 方法 在 样本 外 数据 上 进行 测试 
(如 n 折 交叉 验证 )， 基 于 样本 外 数据 上 的 结果 来 决定 模型 的 最 优 复杂 度 ， 然 后 在 完整 训练 
集 上 进行 训练 来 构建 系数 曲线 ， 从 中 挑 出 样本 外 性 能 最 好 的 步 长 对 应 的 解 。 

本 章 介 绍 了 和 您 罚 线性 回归 模型 对 应 的 两 个 最 小 化 问题 的 求解 方法 。 学 习 了 这 两 个 算法 
是 如 何 工 作 的 ， 以 及 它们 之 间 的 关系 和 实现 细节 。 这 些 都 为 后 续 使 用 相关 的 Python 代码 
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E 解 第 5 章 中 关于 模型 的 不 同 扩展 方法 。 























图 4-6 ”预测 红酒 口感 的 glmnet 模型 的 系数 曲线 
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目前 为 止 ， 算 法 开发 关注 于 回归 问题 ， 其 中 要 预测 的 输出 为 实数 值 。 如 何 把 讨论 的 方 
法 推广 到 分 类 问题 , 其 中 输出 为 两 个 离散 值 (或 者 更 多 ), 比如 “点 击 ” 或 者 “未 点 击 ”? 
有 多 种 方法 将 目前 的 回归 问题 推广 到 分 类 问题 。 


4.4.1 使 用 惩罚 回归 求解 分 类 问题 

对 于 二 分 类 问题 ， 将 二 值 转换 为 实数 值 往往 会 获得 好 结果 。 该 过 程 将 2 个 类 别 值 编 码 
为 1 和 0 (或 者 +1 和 -1)。 通 过 这 个 简单 的 安排 ， 标 签 列 表 变 为 一 串 实数 值 ， 之 前 讨论 
的 算法 就 可 以 应 用 上 。 虽 然 有 很 多 扩展 方法 ， 但 上 述 方法 往往 是 一 个 不 错 的 方法 。 上 述 简 
单 编码 的 方法 要 比 复杂 方法 训练 更 快 ， 这 个 特性 很 重要 。 

代码 清单 4-4 给 出 了 在 岩石 - 水 雷 数据 集 上 将 类 别 属性 替换 为 0 和 1 的 一 个 例子 。 回 
想 下 第 2 章 岩 石 - 水 雷 数据 集 对 应 于 一 个 分 类 问题 。 数 据 集 来 自 于 一 次 具体 实验 ， 实 验 目 
标 是 确定 能 否 通过 声 纳 来 检测 未 爆炸 的 水 雷 。 除 水 雷 外 ， 其 他 物体 也 会 反射 声波 ， 那 么 预 
测 的 问题 是 确定 反射 声波 是 来 自 水 雷 还 是 海底 岩石 。 

实验 使 用 的 声 纳 波形 称 作 吴 喇 波形。 啊 嗽 波形 在 脉冲 传输 过 程 中 会 发 生 频 率 升降 。 岩 
石 水 雷 数据 集中 的 60 个 属性 是 在 60 个 不 同时 间 点 抽样 获得 的 返回 脉冲 ， 这 些 脉 冲 对 应 
于 咽 吃 脉冲 的 60 个 不 同 频段 。 
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代码 清单 4-4 展示 了 如 何 将 分 类 标签 R 和 M 转换 为 0.0 以 及 1.0， 从 而 将 问题 转换 为 




















H 





通 回归 问题 , 然后 使 用 LARS 算法 来 构建 分 类 器 。 代 码 清 单 4-4 对 整个 数据 集 遍 历 一 遍 。 














正如 上 一 节 所 讨论 的 ， 你 会 联想 到 使 用 交叉 验证 或 者 预 留 数 据 来 选择 最 优 的 模型 复杂 度 。 


es 了 回顾 并 比较 它们 的 性 能 。 这 里 目标 集中 在 如 何 把 已 经 
提 到 的 回归 工具 应 用 到 分 类 问题 





代码 清单 4-4 ”通过 为 二 类 标签 赋 数 值 来 将 普通 分 类 问题 转换 为 普通 线性 回归 问题 


, author = 'mike bowles' 
import urllib2 

import sys 

from math import sqrt 


import matplotlib.pyplot as plot 


fread data from uci data repository 
target url - "https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 


xList - [] 


for line in data: 
#split on comma 
row = line.strip().split(",") 


xList.append(row) 


#Sseparate labels from attributes, convert from attributes from 


#string to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 


for row in xList: 
lastCol = row.pop() 
if lastCol == "M": 
labels.append(1.0) 
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else: 
labels.append(0.0) 
attrRow = [float(elt) for elt in row] 
xNum. append (attrRow) 
#number of rows and columns in x matrix 
nrow = len(xNum) 


ncol = len(xNum[1]) 


#calculate means and variances 


xMeans = [] 

XSD = [] 

for i in range(ncol): 
col = [xNum[j][i] for j in range (nrow) ] 
mean = sum(col) /nrow 


xMeans.append (mean) 


colDiff = [(xNum[j] [i] - mean) for j in range (nrow) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow) ]) 
stdDev = sqrt (sumSq/nrow) 


xSD.append(stdDev) 


#use calculate mean and standard deviation to normalize xNum 
xNormalized = [] 
for i in range (nrow): 
rowNormalized = [(xNum[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncol)] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrow 
sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - 
meanLabel) for i in range (nrow)])/nrow) 
labelNormalized = [(labels[i] - meanLabel)/sdLabel for i in range (nrow)] 


#initialize a vector of coefficients beta 
beta = [0.0] * ncol 


#initialize matrix of betas at each step 


betaMat = [] 
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betaMat.append(list (beta) ) 


#number of steps to take 
nSteps = 350 

stepSize = 0.004 

nzList = [] 


for i in range(nSteps): 

#calculate residuals 
residuals = [0.0] * nrow 
for j in range (nrow): 

labelsHat = sum([xNormalized[j][k] * beta[k] 

for k in range (ncol)]) 

residuals[j] = labelNormalized[j] - labelsHat 
fcalculate correlation between attribute columns from 
#normalized X and residual 


corr = [0.0] * ncol 


for j in range (ncol): 


corr[j] = sum([xNormalized[k][j] * residuals[k] 
for k in range(nrow)]) / nrow 
iStar = 0 
corrStar = corr[0] 


for j in range(1, (ncol)): 
if abs(corrStar) « abs(corr[j]): 


iStar = j; corrStar = corr[j] 


beta[iStar] += stepSize * corrStar / abs(corrStar) 


betaMat.append(list (beta) ) 


nzBeta = [index for index in range(ncol) if beta[index] 
for q in nzBeta: 
if (q in nzList) == False: 


nzList.append(q) 


#make up names for columns of xNum 


names = ['V' + str(i) for i in range (ncol)] 
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nameList = [names[nzList[i]] 


print (nameList) 


for i in range (ncol): 


for i in range(len(nzList))] 


#plot range of beta values for each attribute 


coefCurve [betaMat[k] [i] 


xaxis 


range (nSteps) 


plot.plot(xaxis, coefCurve) 


plot.xlabel("Steps Taken") 
plot.ylabel(("Coefficient Values")) 











plot.show() 

#Printed Output: 

T['VID0', 'V48', 'V44', VLI"; "'V35', "VSL"; 
# 'VAS', "VO"; "V22', 'VA5', 'V53', 'V27*, '" 
# 'V56', 'V28', 'V39'] 

图 4-7 LARS HUM RAMA. HAIR sn 








for k in range (nSteps)] 


"V2.0" 5 
V30', 


"3t, 
'"V50', 


"NX. 
'V58', 


UMS, 
'V46', 


[ 酒 口感 预测 曲线 类 似 。 然 而 ， 这 






































里 的 
208 行 数据 )。 基 于 第 3 章 的 讨论 结果 ， 
看 到 这 种 属性 取舍 的 结果 (这些 结 果 会 











线 数量 更 多 ， 因 为 岩石 - 水 雷 数据 集 属性 更 多 (岩石 水 雷 数 据 包 含 60 个 属性 以 及 
你 可 能 认为 最 优 解 不 会 使 用 所 有 属 怕 
会 显著 影响 解 ) 以 及 不 同方 法 的 性 能 优 劣 。 
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图 4-7 ”对 岩石 -~ 水 雷 分 类 
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通过 转换 标签 获得 的 系数 
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另 一 类 扩展 方法 是 使 用 输出 的 似 然 函 数 来 定义 问题 ， 也 被 称 作 逻辑 回归 。glmnet 算法 
也 可 以 求解 逻辑 回归 ，Friedman 的 原始 论文 对 glmnet 逻辑 回归 进行 综述 并 将 其 扩展 到 多 
类 别 分 类 问题 ， 即 对 超过 2 种 离散 输出 的 预测 问题 。 第 5 章 将 介绍 该 算法 针对 二 分 类 以 及 
多 分 类 的 版 本 。 


44.2 ”求解 超过 2 种 输出 的 分 类 问题 

一 些 问题 需要 在 多 个 结果 中 进行 决策 。 例 如 , 假设 你 会 为 你 网 站 的 访客 呈现 多 个 链接 。 
访客 可 能 会 点 击 链接 中 的 任何 一 个 ， 点 击 返回 按钮 或 者 完全 退出 网 站 。 与 整数 型 的 红酒 
口感 得 分 不 同 ， 这 里 存在 多 种 可 选 方案 。 红 酒 口感 为 4 的 得 分 很 自然 地 处 在 3 和 5 之 间 ， 
如 果 改 变 一 个 属性 (比如 酒精 含量 ) 使 得 分 从 3 变 为 4， 改变 更 多 的 话 会 使 得 分 进一步 向 
相同 方向 移动 。 而 网 站 访客 的 行为 结果 没有 这 样 的 顺序 。 这 被 称 作 多 分 类 问题 。 

你 总 可 以 使 用 一 个 两 类 分 类 器 来 解决 多 分 类 问题 。 该 技术 称 作 一 对 所 有 或 者 一 对 其 余 ， 
从 名 字 上 大 概 可 以 了 解 算 法 是 怎么 工作 的 。 基 本 上 把 多 分 类 问题 分 解 为 多 个 二 分 类 问题 。 
例如 ， 你 可 以 预测 访问 者 是 否 会 离开 网 站 或 者 做 其 他 选择 。 另 一 个 二 分 类 问题 是 预测 用 户 
是 否 会 点 击 返 回 按钮 或 者 点 击 其 他 的 可 用 链接 。 总 之 能 生成 多 少 种 相反 输出 ， 就 可 以 折腾 
出 多 少 个 二 分 类 问题 。 二 分 类 器 在 预测 时 都 会 输出 具体 数值 ， 如 代码 清单 4-4 中 的 LARS 
分 类 器 。 这 些 一 对 其 余 的 分 类 器 中 ,预测 输出 最 大 的 作为 获胜 结果 。 第 5 章 在 玻璃 数据 集 
上 实现 了 该 算法 ， 其 中 包含 6 种 不 同 的 输出 结 


4.4.3 理解 基 扩 展 : 使 用 线性 方法 来 解决 非 线 性 问题 

本 质 上 ， 线 性 方法 假设 分 类 以 及 回归 预测 可 以 表示 为 可 用 属性 的 线性 组 合 。 如 果 你 有 
理由 怀疑 线性 模型 不 够 的 话 该 怎么 办 ? 仍然 可 以 通过 基 扩 展 使 用 线性 模型 来 处 理 非 线性 
关系 。 基 扩展 的 基本 想法 是 问题 中 的 非 线 性 可 以 通过 属性 的 多 项 式 组 合 来 近似 (或 者 属 


































































































生 
的 其 他 非 线性 函数 ) ， 你 可 以 向 线性 回归 公式 添加 原始 属性 的 寡 作 为 回归 因子 ， 通 过 线性 
方法 来 确定 多 项 式 回 归 的 系数 集合 。 

为 了 理解 为 什么 该 方法 有 效 ， 可 以 看 代码 清单 4-5。 代 码 从 红酒 口感 数据 集 开始 。 本 
章 之 前 提 到 利用 线性 模型 可 以 得 到 酒精 是 决定 口感 最 重要 的 属性 。 这 种 关系 可 能 不 是 直 
线 ， 尤 其 在 酒精 度 特别 高 或 者 特别 低 的 情况 下 ， 直 线 可 能 弯曲 。 

代码 清单 4-5 展示 了 如 何 对 上 述 观点 进行 验证 。 









































代码 清单 4-5 ”使 用 基 扩 展 解决 红酒 口感 预测 问题 


, author = 'mike-bowles' 


import urllib2 
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import matplotlib.pyplot as plot 


from math import sqrt, cos, log 


#read data into iterable 

target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 

data = urllib2.urlopen(target url) 

xList = [ 
labels = [] 





names = [ 

firstLine = True 

for line in data: 
if firstLine: 


names = line.strip().split(";") 





firstLine = False 
else: 
split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop () 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


#extend the alcohol variable (the last column in that attribute matrix 
xExtended = [] 


alchCol = len(xList[1]) 





for row in xList: 
newRow = list(row) 
alch = row[alchCol - 1] 
newRow.append((alch - 7) * (alch - 7)/10) 
newRow.append(5 * log(alch - 7)) 


newRow.append (cos (alch)) 





xExtended.append (newRow) 





nrow = len(xList) 
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vl = [xExtended[j][alchCol - 1] for j in range (nrow)] 


for i in range(4): 





v2 = [xExtended[j][alchCol - 1 + i] for j in range(nrow) ] 


plot.scatter(v1,v2) 


plot.xlabel ("Alcohol") 
plot.ylabel(("Extension Functions of Alcohol")) 





plot.show() 


代码 按照 之 前 的 方式 读 入 数据 。 读 入 数据 之 后 (以 及 在 属性 正则 化 之 前 )， 代 码 对 数据 
行进 行 扫 描 ， 向 数据 行 中 添加 一 些 新 属性 ， 并 将 扩展 后 的 新 行 添 加 到 新 的 属性 集 上 。 附 加 
的 新 属性 是 原始 酒精 属性 的 函数 输出 。 例 如， 第 一 个 新 属性 是 ((alch - 7) * (alch -7) /10), 
其 中 alch 是 数据 行 的 酒精 级 别 。 引 入 常数 7 和 10， 从 而 使 新 产生 的 属性 都 能 在 一 个 图 上 
画 出 来 。 基 本 上 ， 新 属性 取 酒 精 值 的 平方 。 

该 过 程 的 下 一 步 是 使 用 扩展 属性 集合 来 构建 一 个 线性 分 类 器 (或 者 其 他 可 用 方法 来 构 
建 线性 模型 )。 不 论 使 用 哪 种 方法 来 构建 线性 模型 ， 模 型 都 需要 针对 每 个 属性 引入 乘 子 (或 
者 系数 )， 包 括 新 属性 。 如 果 扩 展 使 用 的 函数 都 是 原始 属性 的 窜 ， 线 性 模型 的 输出 就 是 原 
始 属性 寡 的 系数 。 通 过 选择 扩展 函数 ， 其 他 函数 族 也 可 以 用 于 构建 线性 分 类 器 。 

图 4-8 展示 了 新 属性 与 原始 属性 的 依赖 关系 。 可 以 看 到 扩展 属性 是 原始 属性 的 平方 、 
log VAR IES% 
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酒精 属性 上 的 扩展 
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Ed 4-8 用 于 生成 酒精 扩展 属性 的 函数 
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4.4.4 ”向 线性 方法 中 引入 非 数 值 属性 

惩罚 线性 回归 方法 (以 及 其 他 线性 方法 ) 需要 使 用 数值 属性 。 如 果 你 的 问题 包含 其 他 
非 数 值 属性 (也 称 作 类 别 或 者 因子 属性 ) 该 怎么 办 ? 一 个 熟悉 的 例子 是 性 别 属 性 ， 属 性 的 
可 能 值 只 有 男 和 女 。 进 行 类 别 属性 转换 的 标准 方法 是 将 属性 的 可 能 取 值 编 码 为 若干 新 的 属 
VERI, 如果 一 个 属性 有 NN 个 可 能 值 ,那么 该 属性 将 被 编码 为 N-1 列 新 的 属性 ,对 于 每 行 记录 ， 
如 果 原 始 属 性 值 为 第 i 个 可 能 值 ， 那 么 将 对 应 的 新 属性 列 的 第 i 列 设 为 1， 其 他 列 设 为 0。 
如 果 该 行 的 原始 属性 值 为 第 个 值 ， 则 将 对 应 新 属性 的 所 有 列 设 为 0。 

代码 清单 4-6 展示 了 如 何在 鲍鱼 数据 集 上 应 用 该 技术 。 数 据 集 对 应 的 任务 是 基于 不 同 
的 身体 指标 来 预测 鲍鱼 年 龄 。 



























































代码 清单 4-6 ”在 惩罚 线性 回归 方法 中 对 类 别 属性 进行 编码 -Abalone Data-larsAbalon.py 


, author = 'mike bowles' 


import urllib2 
from pylab import * 
import matplotlib.pyplot as plot 


target url - ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/abalone/abalone.data") 
#read abalone data 


data = urllib2.urlopen(target_url) 


xList = [ 
labels = [] 





for line in data: 
#split on semi-colon 


row = line.strip().split(",") 


#put labels in separate array and remove label from row 


labels.append (float (row. pop () ) ) 


#form list of list of attributes (all strings) 


xList.append (row) 





names = ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight', \ 
'Shucked weight', 'Viscera weight', 'Shell weight', 'Rings'] 
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#code three-valued sex attribute as numeric 
xCoded = [] 


for 


nam 


row in xList: 





#first code the three-valued sex variable 
codedSex = [0.0, 0.0] 


if row[0] == 'M': codedSex[0] = 1.0 
if row[0] == 'F': codedSex[1] = 1 
numRow = [float(row[i]) for i in range(1,len(row))] 


rowCoded = list(codedSex) + numRow 


xCoded.append(rowCoded) 





sCoded = ['Sexl', 'Sex2', 'Length', 'Diameter', 'Height', \ 
"Whole weight', 'Shucked weight', 'Viscera weight', \ 
"Shell weight', 'Rings'] 


nrows = len (xCoded) 
ncols = len(xCoded[1]) 


xMeans = [] 
XSD = [] 
for i in range(ncols): 


col = [xCoded[j] [i] for j in range(nrows) ] 

mean = sum(col)/nrows 

xMeans.append (mean) 

colDiff = [(xCoded[j][i] - mean) for j in range(nrows) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows) ]) 
stdDev = sqrt (sumSq/nrows) 


xSD. append (stdDev) 


#use calculate mean and standard deviation to normalize xCoded 


xNormalized = [] 


for 


i in range (nrows): 
rowNormalized = [(xCoded[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncols)] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 


sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - 
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meanLabel) for i in range (nrows)])/nrows) 


labelNormalized = [(labels[i] - meanLabel)/sdLabel \ 


for i in range (nrows)] 


#initialize a vector of coefficients beta 


beta = [0.0] * ncols 


#initialize matrix of betas at each step 
betaMat = [] 
betaMat.append(list (beta) ) 


#number of steps to take 
nSteps = 350 

stepSize = 0.004 

nzList = [] 


for i in range(nSteps): 
#calculate residuals 
residuals = [0.0] * nrows 
for j in range(nrows): 
labelsHat = sum([xNormalized[j][k] * beta[k] 
for k in range (ncols)]) 


residuals[j] = labelNormalized[j] - labelsHat 


#calculate correlation between attribute columns from 





#normalized wine and residual 


corr = [0.0] * ncols 


for j in range (ncols): 


corr[j] = sum([xNormalized[k][j] * residuals[k] 
for k in range(nrows)]) / nrows 
iStar = 0 
corrStar - corr[0] 


for j in range(1, (ncols)): 
if abs(corrStar) < abs(corr[j]): 


iStar = j; corrStar = corr[j] 
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beta[iStar] += stepSize * corrStar / abs(corrStar) 


betaMat.append (list (beta) ) 


nzBeta = [index for index in range(ncols) if beta[index] != 0.0] 
for q in nzBeta: 
if (q in nzList) -- False: 


nzList.append(q) 





nameList = [namesCoded[nzList[i]] for i in range(len(nzList))] 


print (nameList) 

for i in range (ncols): 
fplot range of beta values for each attribute 
coefCurve = [betaMat[k][i] for k in range (nSteps)] 
xaxis - range (nSteps) 


plot.plot(xaxis, coefCurve) 


plot.xlabel("Steps Taken") 
plot.ylabel(("Coefficient Values")) 





plot.show() 


Printed Output - [filename- larsAbaloneOutput.txt] 
['Shell weight', 'Height', 'Sex2', 'Shucked weight', 'Diameter', 'Sexl1'] 


第 一 个 属性 是 鲍鱼 的 性 别 ， 有 3 种 可 能 值 。 因 为 鲍鱼 出 生 不 久 ， 人 性 别 不 能 确定 ， 所 以 
有 3 种 可 能 值 为 M CHE), F OE) 以 及 I (RE). 

和 列 相 关 的 变量 名 使 用 Python 列表 展示 。 对 于 鲍鱼 数据 集 ， 这 些 列 名 并 不 在 数据 文 
件 的 第 一 行 出 现 ， 而 是 单独 保存 为 一 个 文件 放 在 UC Irvine 网 站 上 。 列 表 的 第 一 个 变量 是 
动物 性 别 。 列 表 最 后 一 个 变量 是 环 数 ， 即 切 开 鲍鱼 的 壳 ， 使 用 显微镜 观察 并 统计 鲍鱼 壳 
上 环 的 个 数 。 环 数 实际 代表 鲍鱼 的 年 龄 。 该 问题 的 目标 是 训练 一 个 回归 系统 来 预测 环 数 ， 
而 非 直接 对 环 数 进行 计数 ， 这 种 预测 相当 于 一 种 更 简单 、 更 省 时 以 及 更 经 济 的 测量 手段 。 

在 属性 矩阵 进行 归 一 化 之 前 ， 需 要 完成 对 性 别 属性 的 编码 。 该 过 程 是 构建 2 列 来 代表 
3 种 可 能 的 值 。 构 建 逻 辑 是 如 果 对 应 行 的 性 别 为 雄性 (M), TES 1 列 设 为 1， 否 则 设 为 0。 
如 果 性 别 为 雌性 (F), 98 2 列 设 为 1。 如 果 样 本 还 处 在 幼年 ，2 列 都 设 为 0。 新 属性 列 的 
列 名 为 Sexl 和 Sex2, 

一 旦 编码 完成 ， 属 性 矩阵 包含 所 有 数值 ， 样 本 就 可 以 按照 之 前 的 方法 进行 处 理 。 算 
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法 将 变量 归 一 化 为 0 均值 以 及 标准 差 ， 然后 应 用 先前 提 到 的 LARS 算法 来 推断 系数 曲线 。 
输出 展示 了 进入 惩罚 线性 回归 模型 中 的 变量 顺序 。 你 会 观察 到 用 于 编码 性 别 的 新 的 2 列 属 
性 都 出 现在 解 中 。 

图 4-9 为 LARS 算法 针对 该 问题 生成 的 系数 曲线 。 第 5 章 针对 该 问题 会 使 用 多 种 方法 
来 提升 效果 。 
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图 4-9 对 类 别 变量 使 用 编码 后 的 新 属性 在 鲍鱼 数据 集 上 应 用 LARS 算法 训练 得 到 的 系数 曲线 

















本 章 讨论 了 惩罚 线性 回归 的 几 种 扩展 方法 ， 拓 宽 了 其 适应 不 同 问题 的 能 力 。 本 节 描 述 
了 一 个 简单 常用 方法 ， 即 将 分 类 问题 转换 为 普通 线性 回归 问题 。 讨 论 了 如 何 将 二 分 类 推广 
到 多 分 类 问题 上 。 接 着 讨论 了 如 何在 原始 属性 上 应 用 非 线性 函数 生成 新 属性 ， 将 新 属性 添 
加 到 模型 ， 从 而 实现 使 用 线性 回归 来 建 模 非 线性 行为 。 最 后 展示 了 如 何 将 类 别 变量 转换 为 
数值 变量 ， 从 而 可 以 在 类 别 变量 上 训练 线性 算法 。 类 别 变量 的 转换 方法 不 止 可 以 用 于 线性 
回归 ， 也 可 以 用 于 其 他 线性 方法 ， 如 支持 向 量 机 。 



































小 结 


本 章 的 目标 是 打 基 础 ， 让 你 可 以 自信 地 使 用 Python 包 来 实现 算法 。 本 章 将 输入 数据 
描述 为 一 个 用 于 表示 结果 的 列 向 量 和 一 个 用 于 表示 属性 的 和 矩阵。 第 3 章 提 到 预测 模型 的 复 
杂 度 需要 与 问题 复杂 度 以 及 数据 集 规 模 相 一 致 ， 并 且 给 出 线性 回归 模型 的 调 参 方法 。 本 
章 在 此 基础 上 介绍 了 几 种 最 小 化 算法 ， 其 中 可 调 的 系数 惩罚 项 被 添加 到 最 小 二 乘法 的 错 
误 惩罚 项 中 。 正 如 本 章 所 展示 的 ， 利 用 系数 个 数 作为 惩罚 项 可 以 对 系数 进行 压缩 ， 从 而 
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实现 对 模型 复杂 度 的 调整 。 我 们 看 到 如 何 使 用 样本 外 数据 上 的 错误 来 调整 模型 的 复杂 度 ， 
从 而 获得 最 优 性 能 。 

本 章 描 述 了 两 种 当代 方法 用 于 求解 惩罚 线性 回归 最 小 化 问题 ， 介 绍 如 何 使 用 Python 
来 实现 算法 ， 从 而 帮助 你 掌握 算法 的 核心 代码 。 本 章 以 普通 回归 问题 (数值 特征 以 及 数值 
目标 ) 作为 例子 对 算法 进行 深度 介绍 ， 也 介绍 了 线性 回归 的 几 种 扩展 方法 ， 扩 大 了 线性 回 
归 的 使 用 场景 ， 这 些 扩展 包括 解决 二 分 类 问题 、 多 分 类 问题 、 属 性 与 结果 非 线性 关系 的 问 
题 以 及 非 数值 属性 问题 。 

第 5 章 将 使 用 Python 包 来 解决 一 系列 精心 挑选 的 问题 ， 从 而 巩固 学 习 到 的 内 容 。 通 
过 本 章 所 学 内 容 ， 相 信 你 已 经 对 Python 包 中 的 不 同 参数 和 方法 熟悉 了 很 多 。 
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使 用 惩罚 线性 方法 来 构建 预测 模型 




















第 2 章 我 们 了 解 了 多 个 不 同 的 数据 集 ， 目 标 是 理解 数据 ， 理 解 不 同属 性 与 预测 标签 之 
间 的 关系 ， 理 解 问题 本 质 。 本 章 将 再 次 使 用 这 些 数 据 ， 通 过 一 些 例子 来 展示 使 用 惩罚 线性 
回归 方法 来 构建 预测 模型 的 过 程 。 一 般 来 讲 ， 模 型 构建 可 以 分 为 两 个 或 者 多 个 阶段 。 

第 4 章 我 们 提 到 的 构建 惩罚 线性 回归 模型 包含 二 步 。 第 一 步 是 在 整个 数据 集 上 训练 获 
得 系数 曲线 。 第 二 步 是 运行 交叉 验证 来 寻找 最 佳 的 样本 外 性 能 , 并 提取 该 性 能 对 应 的 模型 。 
确定 模型 能 达到 的 最 高 性 能 是 模型 设计 最 难 的 部 分 ， 对 于 本 章 的 绝 大 部 分 例子 ， 我 们 只 
呈现 第 2 步 。 在 整个 数据 集 上 进行 训练 是 为 了 得 到 最 佳 的 模型 系数 ， 这 并 不 会 改变 对 错 
te (或 者 说 算法 性 能 ) 的 估计 。 

本 章 将 在 一 系列 不 同 的 问题 上 运行 算法 :回归 问题 、 分 类 问题 、 包 含 类 别 属 性 的 问题 、 
以 及 标签 与 属性 存在 非 线性 关系 的 问题 。 本 章 也 会 进一步 验证 基 扩 展 是 否 会 提升 预测 性 
能 。 对 每 个 例子 , 本 章 都 会 介绍 为 了 达到 一 个 可 部 署 的 线性 模型 , 中 间 会 采取 的 关键 步骤 ， 
也 会 考虑 一 些 备 选 方案 ， 目 的 是 得 到 最 佳 性 能 。 
























































5.1 惩罚 线性 回归 的 Python & 


第 4 章 的 例子 使 用 如 下 的 训练 算法 : LARS 以 及 使 用 ElasticNet #77 89 25 9U BB BE F BE 
方法 。 第 4 章 使 用 Python 代码 的 目的 是 展示 算法 的 工作 原理 ， 从 而 深入 理解 。 幸 运 的 是 ， 
不 需要 在 每 次 使 用 时 都 重复 编写 算法 。 

Scikit-learn 算法 包 已 经 实现 了 套 索 、LARS 以 及 ElasticNet 回归 。 使 用 算法 包 有 两 个 
优势 : 一 是 减少 要 编写 以 及 调试 的 代码 行 数 ， 另 一 个 优势 是 包 的 运行 速度 要 远 快 于 第 4 
章 的 代码 。 

scikit-learn 算法 包 会 利用 一 些 已 经 证 明 的 实用 方法 ， 如 去 掉 对 无 关 属 性 关联 的 计算 来 
减少 计算 量 。 你 会 看 到 这 些 算 法 包 的 执行 速度 非常 快 。 

本 章 使 用 的 算法 包含 在 sklearn.linear model 算法 包 下 ， 对 应 链接 为 http://scikit-learn. 
org/stable/modules/classes.html#modulesklearn, linear_model 展示 了 可 供 使 用 的 模型 清 
单 。 注 意 到 几 种 模型 的 风格 略微 不 同 。 例 如 ，linear model.ElasticNet 包 和 linear model, 
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ElasticNetCV 包 对 应 本 章 介 绍 的 2 个 任务 。Python J linear model.ElasticNet 用 于 在 整个 
数据 集 上 计算 系数 曲线 ，linear model.ElasticNetCV 通过 交 又 验证 生成 对 ElasticNet 模型 
性 能 的 样本 外 估计 。 这 些 包 都 是 现成 的 ， 可 以 直接 使 用 。 
两 个 版 本 的 包 都 使 用 相同 的 输入 格式 (两 个 numpy 数组 : 一 个 表示 属性 ， 另 一 个 表 
示 标 签 ) 。 在 一 些 情况 下 ， 为 了 更 精细 地 控制 交叉 验证 每 一 折 验 证 使 用 的 训练 集 和 测试 集 ， 
可 能 不 能 直接 使 用 交叉 验证 的 函数 版 本 。 
€ 如 果 问 题 包含 一 个 类 别 属性 ， 并 且 该 类 别 属性 的 某 个 属性 值 出 现 较 少 ， 就 需要 
过 抽样 来 确保 每 份 数 据 中 包含 特定 属性 值 的 样本 个 数 是 等 比例 的 。 
€ 此 外 ， 也 可 能 需要 访问 每 折 数 据 来 计算 错误 统计 量 ， 比 如 不 想 使 用 CV 包 中 的 均 
方 误差 (MSE)， 想 换 用 其 他 错误 统计 量 ， 如 平均 绝对 误差 (MAE)， 因 为 它 能 
好 地 代表 实际 问题 中 的 错误 。 
€ 另 一 种 需要 对 每 折 数 据 计 算 错 误 的 情况 是 使 用 线性 回归 来 解决 分 类 问题 。 正 
如 第 3 章 所 述 ， 分 类 问题 使 用 的 标准 错误 指标 一 般 是 误 分 类 率 或 者 ROC Hf 
线 下 面积 (AUC) 。 可 以 在 本 章 的 岩石 -水 雷 分 类 以 及 玻璃 分 类 的 例子 中 看 到 。 
学 习 使 用 这 些 包 尤其 要 注意 以 下 几 点 : 一 是 一 些 包 (不 是 所 有 包 ) 在 模型 拟 合 前 会 
自动 对 属性 进行 归 一 化 ， 二 是 scikit-learn 包 中 变量 的 命名 规则 与 第 4 章 中 以 及 Friedman 
论文 中 的 变量 命名 规则 都 不 同 。 第 4 章 使 用 变量 4 来 代表 系数 惩罚 项 的 乘 子 ， 使 用 变量 a 
来 代表 套 索 惩罚 项 以 及 ElasticNet 中 岭 回归 惩罚 项 的 比例 。scikit-learn 包 使 用 wx 来 取代 1， 
使 用 11_ratio 来 取代 a。 下 面 介绍 scikit-learn 包 使 用 的 记号 。 
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SCIKIT-LEARN 的 改动 
scikit-learn 的 目标 是 通过 正则 化 等 技术 将 所 有 的 惩罚 线性 回归 算法 归结 为 统一 的 形式 。 在 写作 本 书 
时 ， 该 工作 仍 在 进行 当中 。 





5.2 多 变量 回归 : 预测 红酒 口感 


正如 第 2 章 所 讨论 的 ， 红 酒 口感 数据 集 来 源 于 UC Irvine 数据 仓库 (http://archive. 
ics.uci.edu/ml/datasets/Wine+Quality) 数据 集 包 含 1599 种 红酒 的 化 学 分 析 以 及 每 种 红 
酒 的 平均 口感 得 分 (通过 多 人 品尝 )。 预 测 问 题 是 给 定 化 学 成 分 来 预测 口感 。 化 学 成 分 
数据 包含 11 种 不 同 的 化 学 属性 值 : 酒精 内 容 、pH 以 及 柠檬 酸 等 ， 可 以 到 第 2 章 或 者 
UC Irvine 的 网 站 去 了 解 该 数据 集 的 更 多 细节 。 

预测 红酒 口感 是 一 个 回归 问题 , 因为 问题 目标 是 预测 质量 得 分 , 质量 得 分 为 0 ~ 10 
的 整数 。 数 据 集 只 包括 得 分 为 3 一 8 的 样 例 。 因 为 只 给 出 了 整数 得 分 ， 所 以 理论 上 
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也 可 以 将 该 问题 转换 为 多 分 类 问题 ， 即 该 问题 包含 6 种 可 能 的 类 别 (整数 3 一 8)。 
但 是 作为 分 类 问题 会 忽略 不 同 得 分 之 间 存 在 的 顺序 关系 (如 5 比 6 差 , 但 比 4 好 )， 
所 以 回归 是 一 个 更 自然 的 解决 方法 ， 因 为 它 的 预测 很 好 地 保留 了 顺序 关系 。 

定义 问题 的 另 一 种 方式 是 从 错误 指标 出 发 ， 这 些 指标 关联 到 回归 问题 或 者 是 多 分 类 问 
题 。 回 归 的 错误 函数 是 均 方 误差 。 当 实际 的 口感 得 分 为 3 时 ， 预 测 值 为 5 要 比 预测 值 为 4 
对 累积 错误 的 贡献 更 大 。 多 分 类 问题 的 错误 指标 是 被 误 分 的 样本 数目 。 使 用 该 错误 指标 ， 
如 果实 际 的 口感 为 3， 预 测 5 或 者 4 对 于 预测 错误 的 贡献 相同 。 回 归 显 得 更 加 自然 ， 但 是 
没有 更 好 的 办 法 证 明 它 的 性 能 更 优 。 唯 一 能 确定 哪 种 方法 效果 更 好 的 方式 是 两 种 都 尝试 一 
下 。 在 “多 类 别 分 类 : 分 类 犯罪 场景 下 的 玻璃 样本 "， 会 学 习 如 何 处 理 多 类 问题 。 接 着 可 以 
再 回来 尝试 多 分 类 方法 , 看 看 使 用 分 类 ,效果 会 变 好 还 是 变 差 。 实 际 你 会 用 哪 种 错误 指标 ? 


5.2.1 构建 并 测试 模型 以 预测 红酒 口感 

构建 模型 的 第 一 步 是 通过 样本 外 的 性 能 来 判断 模型 能 否 满足 性 能 要 求 。 代 码 清单 5-1 
展示 了 执行 10 折 交 又 验证 的 效果 并 绘制 了 图 形 。 代 码 的 第 1 节 从 UCI 网 站 读 人 数据 ， 
转化 为 列表 的 列表 ， 然 后 对 属性 以 及 标签 进行 归 一 化 。 接 着 将 列表 转换 为 numpy 数组 
X (属性 矩阵 ) 以 及 数组 Y (标签 向 量 )。 回 归 存 在 2 个 版 本 的 定义 。 其 中 一 个 版 本 使 
用 归 一 化 的 数值 ， 另 一 个 版 本 使 用 非 归 一 化 的 数值 。 不 论 哪 种 定义 ， 都 可 以 将 对 应 的 
非 归 一 化 版 本 注释 掉 ， 重 新 运行 代码 看 对 属性 或 者 标签 进行 归 一 化 的 实际 效果 。 使 用 
一 行 代码 定义 交叉 验证 的 数据 份 数 (10) ， 并 且 对 模型 进行 了 训练 。 然 后 程序 在 10 份 
数据 的 每 一 份 上 绘制 错误 随 a 变化 的 曲线 ， 同 时 绘制 在 10 份 数据 上 的 错误 平均 值 。 
图 5-1 一 图 5-3 为 使 用 不 同 归 一 化 版 本 的 预测 效果 ,这 3 个 例子 对 应 的 归 一 化 情况 如 下 。 

(1) X 做 归 一 ，Y 不 做 归 一 。 

(2) X 和 YY 都 做 归 一 。 

(3) X 和 YY 都 不 做 归 一 。 





































































































代码 清单 5-1 在 红酒 口感 数据 集 上 ， 使 用 交叉 验证 来 估计 套 索 模型 的 样本 外 错误 
_ author_ = 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import datasets, linear model 
from sklearn.linear model import LassoCV 
from math import sqrt 


import matplotlib.pyplot as plot 
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#read data into iterable 
target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 


data - urllib2.urlopen(target url) 





xList = [ 
labels = [] 
names = [ 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 

row. pop () 

convert row to floats 











floatRow = [float (num) for num in row] 


xList.append (floatRow) 


#Normalize columns in x and labels 
#Note: be careful about normalization. Some penalized 
#regression packages include it and some don't. 


nrows = len(xList) 





ncols = len(xList[0]) 


#calculate means and variances 


xMeans = [] 

xSD = [] 

for i in range(ncols): 
col = [xList[j][i] for j in range(nrows) ] 
mean = sum(col)/nrows 


xMeans.append (mean) 


colDiff = [(xList[j][i] - mean) for j in range(nrows)] 
sumSq - sum([colDiff[i] * colDiff[i] for i in range (nrows)]) 
stdDev = sqrt(sumSq/nrows) 


xSD.append (stdDev) 
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#use calculate mean and standard deviation to normalize xList 
xNormalized = [] 
for i in range (nrows): 
rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] \ 
for j in range(ncols) ] 


xNormalized.append (rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - 
meanLabel) for i in range (nrows) ]) /nrows) 

labelNormalized = [(labels[i] - meanLabel)/sdLabel \ 


for i in range (nrows)] 


Convert list of list to np array for input to sklearn packages 








Unnormalized labels 


Y - numpy.array (labels) 


#normalized lables 


Y = numpy.array (labelNormalized) 


#Unnormalized X's 


X = numpy.array(xList) 


#Normalized Xss 


X = numpy.array (xNormalized) 


#Call LassoCV from sklearn.linear model 
wineModel = LassoCV(cv-10).fit(X, Y) 


# Display results 


plot.figure () 

plot.plot(wineModel.alphas , wineModel.mse path , ':') 

plot.plot(wineModel.alphas , wineModel.mse path .mean(axis--1), 
label='Average MSE Across Folds', linewidth-2) 





plot.axvline(wineModel.alpha , linestyle-'--', 
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label='CV Estimate of Best alpha') 


plot.semilogx () 
plot.legend () 

ax = plot.gca() 
ax.invert xaxis() 


plot.xlabel('alpha') 





plot.ylabel('Mean Square Error') 
plot.axis('tight') 
plot.show() 


fprint out the value of alpha that minimizes the Cv-error 


print("alpha Value that Minimizes CV 





print("Minimum MSE ", min(wineModel.m 





Error ",wineModel.alpha ) 


se path .mean(axis--1))) 


Printed Output: Normalized X, Un-normalized Y 





('alpha Value that Minimizes CV Error 
('Minimum MSE ', 0.433801987153697) 





Printed Output: Normalized X and Y 





('alpha Value that Minimizes CV Error 
('Minimum MSE ', 0.66558492060028562) 





Printed Output: Un-normalized X and Y 





('alpha Value that Minimizes CV Error 
('Minimum MSE ', 0.43936035436777832) 








', 0.010948337166040082) 


', 0.013561387700964642) 


', 0.0052692947038249062) 





0.9[ 





1 


交叉 验证 多 次 测试 结果 对 应 的 MSE 平 均值 
交叉 验证 表现 最 佳 alpha 值 
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图 5-1 在 红酒 口感 数据 集 上 应 用 套 索 模型 ， 基于 非 归 一 化 的 Y 得 到 的 样本 外 错误 
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一 一 交叉 验证 多 次 测试 结果 对 应 的 MSE 平 均值 
一 一 交叉 验证 表现 最 佳 alpha 值 
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图 5-2 ”在 红酒 口感 数据 集 上 应 用 套 索 模型 ， 基于 归 一 化 的 Y 得 到 的 样本 外 错误 












































一 一 交叉 验证 多 次 测试 结果 对 应 的 MSE 平 均值 
一 一 交叉 验证 表现 最 佳 alpha 值 
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5-3 在 红酒 口感 数据 集 上 应 用 套 索 模型 : 基于 归 一 化 的 X 和 Y 得 到 的 样本 外 错误 





























代码 清单 5-1 最 下 边 的 输出 展示 了 使 用 归 一 化 了 带 来 的 MSE 的 显著 增长 。 相 比 
之 下 , 图 5-1 以 及 图 5-2 形状 类 似 。 它 们 之 间 的 唯一 差别 是 了 轴 的 数据 尺度 。 参 照 代 
码 清 单 2-13 可 以 看 到 非 归 一 化 的 红酒 质量 得 分 的 标准 偏差 为 0.81。 这 意味 着 归 一 化 
到 标准 偏差 1.0 需要 大 概 乘 以 1.2。 这 会 导致 MSE 增长 1.2 倍 。 对 标签 进行 归 一 化 
会 使 MSE 失去 与 原始 数据 的 关联 。 抽 取 MSE 平方 根 并 转换 回 标签 原始 尺度 ， 这 些 
实现 都 是 现成 的 。 在 本 例 中 , MSE (基于 归 一 化 的 了 ) 为 0.433。 平 方 根 约 为 0.64。 
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这 意味 着 +/-sigma 的 错误 大 约 在 1.3 倍 个 单位 口感 得 分 范围 内 。 所 以 ， 了 做 归 一 化 
并 不 会 对 结果 有 本 质 差 异 。 了 做 归 一 化 的 效果 如 何 ? 关 做 归 一 化 是 会 提高 ， 还 是 降 
低 性 能 呢 ? 

代码 清单 5-1 中 的 数字 集合 展示 了 了 半 不 做 归 一 化 导致 MSE 轻微 增长 。 然而 在 图 5-3 中 ， 
CV 错误 随 alpha 的 变化 关系 与 图 5-1 和 图 5-2 相 比 存在 显著 差异 。 图 上 的 扇形 变化 是 由 工 
特征 尺度 混乱 (未 做 归 一 化 ) 导致 , 算法 挑选 了 尺度 大 的 变量 进行 预测 , 对 应 的 系数 很 小 。 
这 种 情况 发 生 的 条 件 是 如 果 变 量 与 了 的 关联 很 大 ， 或 者 变量 与 了 关联 很 小 ， 但 是 特征 尺 
度 很 大 。 算 法 使 用 一 个 较 差 的 变量 进行 若干 次 述 代 ， 直 到 a 〈 之 前 用 4 代替) 变 得 足够 小 
以 引入 一 个 更 好 的 变量 ,这 时 错误 才 会 陡然 下 降 。 这 个 例子 的 教训 就 是 需要 对 做 归 一 化 ， 
了 不 做 归 一 化 一 定 要 足够 警惕 。 


5.2.2 ”部 署 前 在 整个 数据 集 上 进行 训练 

代码 清单 5-2 为 在 整个 数据 集 上 进行 训练 的 代码 。 正 如 之 前 提 到 的 ， 在 整个 数据 集 上 
进行 训练 是 为 了 获得 部 署 使 用 的 最 佳 权重 系数 。 交 义 验 证 可 以 对 模型 性 能 进行 评 佑 ， 同 时 
获得 性 能 最 好 的 a 参数 值 。 将 数据 从 UC Irvine 数据 仓库 读 人 并 且 归 一 化 后 ， 程 序 将 数据 
转换 为 numpy array 类 型 ， 然 后 调用 lasso. path 方法 来 生成 < 值 《 即 惩罚 项 权重 ) 以 及 对 
应 的 特征 系数 。 系 数 的 变化 轨迹 如 图 5-4 所 示 。 







































































代码 清单 5-2 ”在 完整 数据 集 上 训练 套 索 模型 -wineLassoCoefCurves.py 


, author = 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import datasets, linear model 
from sklearn.linear model import LassoCV 
from math import sqrt 


import matplotlib.pyplot as plot 


#read data into iterable 
target url = "http://archive.ics.uci.edu/ml/machine-learning-databases/ 
wine-quality/winequality-red.csv" 


data = urllib2.urlopen(target url) 


xList = [ 
labels = [] 





names = [] 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 


firstLine = False 
else: 
split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop() 











convert row to floats 
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floatRow = [foat (num) for num in row] 


xList.append (floatRow) 


#Normalize columns in x and labels 


#Note: be careful about normalization. 


#packages include it and some don't. 


nrows = len(xList) 





ncols = len(xList[0]) 


#calculate means and variances 
xMeans = [] 
xSD = [] 


for i in range(ncols): 





Some penalized regression 


col = [xList[j][i] for j in range (nrows) ] 


mean = sum(col)/nrows 


xMeans.append (mean) 


colDiff = [(xList[j] [i] - mean) for j in range (nrows)] 


sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows) ]) 


stdDev = sqrt (sumSq/nrows) 


xSD.append(stdDev) 


#use calculate mean and standard deviation to normalize xList 


xNormalized = [] 
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for i in range (nrows): 
rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] for j in 
range (ncols)] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) 
for i in range (nrows)])/nrows) 

labelNormalized - [(labels[i] - meanLabel)/sdLabel for i in 


range (nrows)] 


#Convert list of list to np array for input to sklearn packages 


#Unnormalized labels 


Y = numpy.array (labels) 


#normalized lables 


Y = numpy.array(labelNormalized) 


#Unnormalized X's 


X = numpy.array(xList) 


#Normalized Xss 


X = numpy.array(xNormalized) 





alphas, coefs, = linear model.lasso path(X, Y, return models-False) 


plot.plot(alphas,coefs.T) 


plot.xlabel('alpha') 
plot.ylabel('Coefficients') 
plot.axis('tight') 








plot.semilogx() 


ax = plot.gca() 
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ax.invert xaxis() 


plot.show() 


nattr, nalpha = coefs.shape 
#find coefficient ordering 
nzList = [] 
for iAlpha in range(1,nalpha): 
coefList = list(coefs[: ,iAlpha]) 
nzCoef = [index for index in range(nattr) if coefList[index] !- 0.0] 
for q in nzCoef: 
if not(q in nzList): 


nzList.append(q) 


nameList = [names[nzList[i]] for i in range(len(nzList))] 





print ("Attributes Ordered by How Early They Enter the Model", nameList) 








#find coefficients corresponding to best alpha value. alpha value 


# corresponding to normalized X and normalized Y is 0.013561387700964642 


alphaStar = 0.013561387700964642 
indexLTalphaStar = [index for index in range(100) if alphas[index] > 
alphaStar] 


indexStar = max(indexLTalphaStar) 
#here's the set of coefficients to deploy 
coefStar - list(coefs[:,indexStar]) 


print("Best Coefficient Values ", coefStar) 


#The coefficients on normalized attributes give another slightly 





#different ordering 


absCoef = [abs(a) for a in coefStar] 


fsort by magnitude 








coefSorted = sorted(absCoef, reverse-True) 


idxCoefSize = [absCoef.index(a) for a in coefSorted if not(a == 0.0)] 
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namesList2 = [names[idxCoefSize[i]] for i in range(len(idxCoefSize) ) ] 


print ("Attributes Ordered by Coef Size at Optimum alpha", namesList2) 


Printed Output w. Normalized X: 
('Attributes Ordered by How Early They Enter the Model', 











['"alcohol"', '"volatile acidity"', '"sulphates"', 

'"total sulfur dioxide"', '"chlorides"', '"fixed acidity"', '"pH"', 
'"free sulfur dioxide"', '"residual sugar"', '"citric acid"', 
'"density"']) 


('Best Coefficient Values ', 

[0.0, -0.22773815784738916, -0.0, 0.0, -0.094239023363375404, 
0.022151948563542922, -0.099036391332770576, -0.0, 
-0.067873612822590218, 0.16804102141830754, 0.37509573430881538]) 


('Attributes Ordered by Coef Size at Optimum alpha', 
['"alcohol"', '"volatile acidity"', '"sulphates"', 
'"total sulfur dioxide"', '"chlorides"', '"pH"', 


'"free sulfur dioxide"']) 


Printed Output w. Un-normalized X: 


('Attributes Ordered by How Early They Enter the Model', 











['"total sulfur dioxide"', '"free sulfur dioxide"', '"alcohol"', 


'"fixed acidity"', '"volatile acidity"', '"sulphates"']) 


('Best Coefficient Values ', [0.044339055570034182, -1.0154179864549988, 
0.0, 0.0, -0.0, 0.0064112885435006822, -0.0038622920281433199, -0.0, 
-0.0, 0.41982634135945091, 0.37812720947996975 


('Attributes Ordered by Coef Size at Optimum alpha', 





['"volatile acidity"', '"sulphates"', '"alcohol"', '"fixed acidity"', 


'"free sulfur dioxide"', '"total sulfur dioxide"']) 


上 述 程序 对 a 值 进行 硬 编码 ， 使 用 交叉 验证 中 效果 最 好 的 a 值 。 代 码 使 用 的 版 本 是 基 
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于 归 一 化 属性 以 及 标签 的 最 佳 alpha 值 。 如 果 属 怕 





会 改变 。 了 不 做 归 一 化 ，a 值 会 乘 以 1.2， 因 为 归 一 
的 标签 归 一 化 以 及 不 归 一 化 对 MSE 差异 的 影响 )。 


交叉 验证 结果 的 系数 向 量 。 








E 取 非 归 一 化 的 值 ， 对 应 的 最 佳 的 a 值 也 
化 后 的 了 的 偏差 为 1.0 (参照 之 前 讨论 
使 用 硬 编码 的 a 值 来 计算 对 应 于 最 佳 














代码 清单 5-2 展示 了 3 种 设置 的 输出 : 基于 归 一 化 属性 以 及 非 归 一 化 的 标签 、 全 部 归 
一 化 、 全 部 非 归 一 化 。 每 种 设置 的 打印 输出 包含 一 列 属 性 ， 这 些 属 性 是 随 a 降低 ， 逐 步 





挑选 出 来 加 入 模型 中 的 属性 (Python 包 中 的 a 值 
展示 了 对 应 于 硬 编码 的 wx 值 的 特征 系数 。 打 印 输 








对 应 于 第 4 章 中 的 惩罚 项 4)。 打 印 输出 
出 的 第 三 个 元 素 是 根据 系数 大 小 得 到 的 








属性 排序 (使 用 指定 的 a 值 )。 属 性 系数 取 值 是 另 一 种 反映 属性 重要 性 的 方式 ， 这 种 排序 
只 有 当 属 性 归 一 化 后 才 有 意义 。 注 意 到 使 用 归 一 化 属性 ， 前 面 讨论 的 为 属性 重要 性 赋值 的 




















2 种 方法 生成 的 属性 顺序 基本 一 致 ， 在 不 太 重 要 的 属性 上 可 能 存在 一 些 差异 。 如 果 使 用 非 





归 一 化 的 属性 ， 则 得 到 的 结果 离 正 确 值 差 之 其 远 。 























正如 前 面 提 到 的 ， 变 量 进 入 解 的 顺序 ( 随 着 a 减少 ) 受 属性 是 否 归 一 化 影响 较 大 。 如 
果 一 个 变量 没有 被 归 一 化 ， 属 性 的 数值 量 级 而 不 是 属性 的 内 在 价值 会 决定 属性 的 使 用 情 






























































况 。 通 过 比较 基于 归 一 化 属性 的 变量 顺序 与 非 归 














个 问题 。 


图 5-4 和 图 5-5 分 别 为 基于 归 一 化 属性 以 及 非 归 一 化 属性 ， 套 索 模 型 的 系数 曲线 。 基 


化 属性 的 变量 顺序 可 以 很 明显 地 发 现 这 

















于 非 归 一 化 属性 的 系数 曲线 相 较 于 归 一 化 属性 的 系数 曲线 更 加 无 序 。 几 个 早期 进入 解 的 系 
数 相对 于 后 续 进 入 解 的 系数 更 接近 于 0。 这 种 现象 正好 证 明了 系数 进入 模型 的 顺序 与 最 佳 


解 的 系数 尺度 的 顺序 存在 本 质 不 同 。 











107! 107? 103 


alpha 
































图 5-4 ”用 于 预测 红酒 品质 的 套 索 模型 的 系数 曲线 
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图 5-5 在 非 归 一 化 的 X 上 训练 套 索 模型 得 到 的 系数 曲线 























5.2.3 BYR: 基于 原始 属性 扩展 新 属性 来 改进 性 能 
第 4 章 讨 论 了 在 原始 属性 通过 函数 来 扩展 新 属性 。 这 么 做 的 目的 是 提高 性 能 。 代 码 清 
单 5-3 展示 了 如 何 添加 2 个 新 属性 到 红酒 数据 上 。 




















代码 清单 5-3 ”使 用 样本 外 错误 来 评估 新 属性 对 红酒 品质 的 预测 效果 -wineExpaned LassoCV.py 


, author = 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import datasets, linear model 
from sklearn.linear model import LassoCV 
from math import sqrt 


import matplotlib.pyplot as plot 


#read data into iterable 
target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 


xList = [ 
labels = [] 





names = [] 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row.pop() 











convert row to floats 
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floatRow = [float (num) for num in row] 


xList.append (floatRow) 
#append square of last term (alcohol) 
for i in range(len(xList)): 


) 
alcElt = xList[i] [-1] 
volAcid = xList[i] [1] 





temp = list (xList[i]) 





temp.append(alcElt*alcElt) 








temp.append (alcElt*volAcid) 
xList[i] = list(temp) 


#add new name to variable list 
names[-1] = "alco^2" 


names.append("alco*volAcid") 
#Normalize columns in x and labels 
#Note: be careful about normalization. 


packages include it and some don't. 


nrows = len(xList) 





ncols = len(xList[0]) 


#calculate means and variances 


Som 


= 


zB 
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xMeans = [] 

XSD = [] 

for i in range(ncols): 
col = [xList[j] [i] for j in range(nrows) ] 
mean = sum(col) /nrows 


xMeans.append (mean) 


colDiff = [(xList[j][i] - mean) for j in range(nrows) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrows)]) 
stdDev = sqrt (sumSq/nrows) 


xSD.append(stdDev) 


#use calculate mean and standard deviation to normalize xList 
xNormalized = [] 
for i in range (nrows): 
rowNormalized = [(xList[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncols)] 


xNormalized.append(rowNormalized) 


#Normalize labels 


meanLabel = sum(labels) /nrows 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) \ 
for i in range (nrows)])/nrows) 

labelNormalized = [(labels[i] - meanLabel)/sdLabel \ 


for i in range (nrows)] 


#Convert list of list to np array for input to sklearn packages 


#Unnormalized labels 


Y = numpy.array (labels) 


#normalized labels 


#Y = numpy.array(labelNormalized) 


#Unnormalized X's 


X = numpy.array(xList) 


#Normalized Xss 


X = numpy.array(xNormalized) 


E 
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#Call LassoCV from sklearn.linear model 


wineModel 


# Display results 








pl 


ax 


.figure () 
.plot(wineModel.alphas , wineModel.mse path , ': 


label-'Average MSE Across Folds', 


.axvline(wineModel.alpha , 


label='CV 





.semilogx() 


.legend() 


plot.gca() 


ax.invert xaxis() 


plot. 
plot. 
plot. 
plot. 


xlabel('alpha') 
ylabel('Mean Square 
axis('tight') 


show() 


LassoCV(cv=10) .fit (X, Y) 


") 


.plot(wineModel.alphas , wineModel.mse path .mean(axis--1), 





linewidth=2) 


linestyle='--', 


Estimate of Best alpha") 





Error') 


#print out the value of alpha that minimizes the CV-error 


print("alpha Value that Minimizes CV 


print("Minimum MSE 


Printed Output: [ 
('alpha Value tha 


('Minimum MSE ', 


属 
属性 行 ，; 


— 





"n 


filename 





Bo" 




















t Minimizes CV 
0.4345287404302 








Error ",wineModel.alpha_) 


, min(wineModel.mse path .mean(axis--1))) 





- wineLassoExpandedCVPrintedOutput.txt] 
Error ', 0.016640498998569835) 
0256) 
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生 读 和 后 的 关键 步骤 是 将 属性 值 转换 为 浮 点 数值 。 前 面 的 很 多 行 代码 都 是 用 于 读 入 
和 其 中 的 酒精 以 及 挥发 酸 属性 值 读 出 来 ， 然 后 添加 酒精 的 平方 以 及 酒精 乘 以 挥发 


eb se 












































酸 这 两 个 新 属性 ， 这 么 做 是 因为 这 些 属性 对 于 解 非常 重要 。 为 了 进一步 提高 性 能 有 可 能 需 
要 对 重要 变量 进行 多 次 组 合 ， 进 行 多 次 尝试 。 

结果 显示 添加 这 些 新 变量 会 轻微 降低 性 能 。 有 时 稍 作 尝 试 就 可 能 发 现 部 分 变量 会 导致 
完全 不 同 的 结果 。 对 于 本 例 ， 可 以 通过 系数 曲线 来 观察 新 的 变量 能 否 取代 最 优 值 对 应 的 原 
台 变量 。 这 些 信 息 可 以 帮助 移 除 原始 变量 ， 使 用 新 创建 的 变量 。 





























图 5-6 为 基于 扩展 属性 集 生成 的 交叉 验证 的 错误 曲线 。 新 的 交叉 验证 曲线 与 基于 原始 
特征 的 交叉 验证 曲线 并 没有 本 质 区 别 。 
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图 5-6 在 红酒 品质 数据 集 上 使 用 扩展 特征 集合 训练 套 索 模 型 得 到 的 交叉 验证 错误 曲线 
本 节 介 绍 了 在 包含 实数 输出 的 问题 上 (回归 问题 ) 应 用 惩罚 回归 方法 的 过 程 。 下 一 节 
将 介绍 输出 为 二 值 情况 下 的 惩罚 线性 回归 方法 。 代 码 类 似 于 本 节 所 看 到 的 ， 其 中 一 些 技 术 
(如 基 扩 展 ) 可 以 用 在 分 类 问题 上 ， 主 要 差别 在 于 对 性 能 的 度量 计算 不 同 。 









































5.3 二 分 类 : 使 用 惩罚 线性 回归 来 检测 未 爆炸 的 水 雷 


第 4 章 讨 论 了 如 何 使 用 惩罚 线性 回归 方法 来 解决 分 类 问题 ， 并 且 给 出 了 岩石 - 水 雷 
问题 的 求解 过 程 。 本 节 将 详细 介绍 如 何 使 用 惩罚 线性 回归 来 求解 二 分 类 问题 ， 具 体 使 用 
Python 的 ElasticNet 包 。 第 4 章 讲 到 ElasticNet 引入 了 一 个 更 普通 的 惩罚 图 数 ， 套 索 以 及 
上 岭 回 归 的 惩罚 函数 只 是 该 函数 的 一 个 特殊 情形 。 随 着 更 换 人 惩罚 函数 ， 可 以 看 到 分 类 器 的 性 
能 的 变化 。 以 下 是 求解 的 步骤 。 

(1) 将 二 分 类 问题 转换 为 回归 问题 。 构 建 一 个 包含 实数 标签 的 向 量 ， 将 其 中 一 个 类 别 
输出 设 为 0， 男 一 个 类 别 输出 设 为 1。 

(2) 执行 交叉 验证 。 因 为 需要 对 每 一 份 数据 计算 错误 ， 交 叉 验 证 稍微 复杂 。Scikit- 
learn 包含 一 些 便捷 的 功能 来 将 这 些 计算 流水 化 。 

第 一 步 (正如 第 4 章 所 述 ) 是 将 二 分 类 问题 转换 为 回归 问题 : 通过 将 类 别 标签 转换 为 
实数 值 。 岩 石 - 水 雷 问 题 的 目标 是 构建 一 个 系统 ， 该 系统 使 用 声 纳 来 检测 海 床 上 的 水 雷 。 
回忆 第 2 章 对 该 数据 集 的 介绍 ， 该 数据 集 包 含 从 岩石 以 及 形状 类 似 水 雷 的 金属 柱 返 回 的 数 
字 信 号 。 目 标 是 构建 一 个 预测 系统 ， 该 系统 可 以 对 数字 信和 号 进行 处 理 来 正确 识别 对 象 是 
岩石 还 是 水 雷 。 数 据 集 包含 208 次 实验 ， 其 中 111 次 实验 对 应 的 结果 是 水 雷 ，97 次 实验 
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对 应 的 结果 是 岩石 。 数 据 集 包 含 61 列 。 前 面 60 列 是 数字 声 纳 ,最 后 1 列 是 岩石 或 者 水 雷 ， 
对 应 取 值 为 M 或 者 了。 前面 60 列 是 用 于 预测 的 属性 。 最 后 1 列 标签 需要 使 用 数值 来 表示 ( 即 
使 回归 也 需要 数值 表示 )。 第 4 章 通 过 将 数字 1 赋 给 其 中 一 个 标签 、 将 0 赋 给 另 一 个 标签 
来 构建 数值 标签 。 代 码 清单 5-4 初始 化 了 一 个 空 的 标签 列表 ,将 每 个 M 行 的 标签 值 设 为 1， 
将 每 个 R 行 的 标签 值 设 为 0。 

有 了 数值 属性 以 及 数值 标签 ， 就 可 以 使 用 回归 版 本 的 惩罚 线性 回归 方法 了 。 下 一 步 是 
执行 交叉 验证 ， 以 获得 对 模型 在 样本 外 数据 上 的 性 能 估计 ， 并 找到 最 佳 的 惩罚 项 参数 c。 对 
于 这 个 问题 ， 交 义 验证 需要 构建 一 个 交叉 验证 循环 来 封装 训练 集 以 及 测试 集 。 为 什么 要 构 
建 一 个 交叉 验证 循环 ， 而 不 是 使 用 Python 中 现成 的 交叉 验证 包 (类似 于 本 章 前 面 提 到 的 
红酒 品质 预测 的 例子 ) ? 

面向 回归 的 交叉 验证 基于 MSE。MSE 对 于 回归 问题 是 合理 的 ,但 对 于 分 类 问题 则 不 是 。 
正如 第 3 章 所 讨论 的 ， 分 类 问题 与 回归 问题 使 用 的 性 能 度量 指标 不 同 。 第 3 章 讨 论 了 度 
量 性 能 几 种 方法 。 一 种 自然 的 度量 方式 是 计算 误 分 类 样本 所 占 的 比例 。 另 一 种 方式 是 度 
量 AUC。 人 参照 第 3 章 或 者 Wikipedia 页 面 http://en.wikipedia.org/wiki/Receiver operating - 
characteristic 来 回顾 AUC 指标 的 计算 方法 。 为 了 计算 指标 ， 需 要 访问 交叉 验证 中 的 每 一 
份 数据 ， 并 获取 其 中 的 所 有 预测 值 以 及 实际 值 。 不 能 只 基于 一 份 数据 的 MSE 来 评估 误 分 
类 错误 。 

交叉 验证 循环 将 数据 切 分 为 训练 集 以 及 测试 集 ， 然 后 调用 Python 的 enet path 方法 在 
训练 数据 上 完成 训练 。 程 序 的 两 个 输入 与 默认 输入 不 同 。 一 个 是 11_ratio， 该 值 被 设置 为 
0.8。 该 参数 决定 了 系数 绝对 值 和 的 惩罚 项 占 所 有 惩罚 项 的 权重 比例 。0.8 代表 惩罚 项 使 用 
80% 的 绝对 值 和 以 及 20% 的 均 方 误差 和 。 另 一 个 需要 指定 的 参数 是 fit_intercept， 该 值 被 
设置 为 False。 代码 使 用 归 一 化 的 标签 以 及 归 一 化 的 属性 。 因为 所 有 这 些 属性 都 是 0 均值 的 ， 
所 以 不 需要 计算 插值 项 。 只 有 属性 以 及 标签 期 望 存在 偏差 时 , 才 需 要 增加 一 个 常数 插值 项 。 
使 用 归 一 化 标签 来 消除 插值 项 会 使 预测 计算 更 加 清晰 ， 但 也 会 使 对 应 MSE 的 意义 不 直观 。 
不 过 对 于 分 类 问题 ， 我 们 不 会 使 用 MSE 来 度量 性 能 。 

对 每 一 折 验 证 ， 训 练 得 到 的 系数 用 于 在 测试 数据 上 生成 预测 ， 对 应 代码 实现 使 用 
numpy 点 乘 函 数 、 使 用 样本 外 数据 的 属性 值 以 及 当前 训练 得 到 的 系数 。2 个 numpy 数 
组 相 乘 得 到 另外 一 个 二 维 数组 ， 该 数组 的 行 对 应 样本 外 的 测试 数据 ， 该 数组 的 列 对 应 由 
enet_path (对 应 于 系数 向 量 序列 以 及 a 序列 ) 生成 的 模型 序列 。 每 一 折 交 叉 验 证 对 应 的 
预测 矩阵 被 拼接 到 一 起 (视觉 上 相当 于 把 一 个 矩阵 铸 加 到 另 一 个 矩阵 上 ) 作为 样本 外 数 
据 的 标签 。 在 运行 的 最 后 ， 这 些 按 折 生 成 的 样本 外 数据 的 预测 结果 可 以 被 高 效 处 理 ， 用 
于 生成 每 个 模型 的 性 能 指标 ,从 中 可 以 挑选 一 个 合适 的 复杂 度 (a) 对 应 的 模型 进行 部 署 。 

代码 清单 5-4 给 出 了 基于 两 种 指标 的 对 比 结果 。 第 一 个 指标 是 误 分 类 错误 。 第 二 个 指 
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标 是 信号 接收 曲线 的 曲线 下 的 面积 〈 即 ROC)。 预 测 矩 阵 的 每 一 列 代表 使 用 一 组 模型 系数 
在 样本 外 数据 上 运算 得 到 的 预测 结果 。 预 测 数据 表示 为 1 列 是 因为 每 次 交叉 验证 会 预 留 出 
一 行 数据 。 误 分 类 计算 使 用 生成 的 预测 类 别 以 及 对 应 的 实际 标签 类 别 (代码 中 称 作 yOut) 
比较 ， 其 中 生成 的 预测 类 别 是 通过 比较 预测 值 和 固定 阅 值 (本 例 中 的 0.0) 得 到 的 。 通 过 
比较 预测 类 别 和 实际 标签 YOut， 可 以 确定 预测 是 否 正确 。 图 5-7 展示 了 性 能 取 到 相同 最 
小 值 的 几 个 点 。 在 性 能 随 a 变化 的 图 上 ， 选 择 离 左 边 较 远 的 点 往往 是 一 个 不 错 方案 。 因 
为 右 侧 的 点 更 容易 充分 拟 合 数据 。 选 择 离 左边 较 远 的 解 是 相对 保守 的 方案 ,在 这 种 情况 下 ， 
很 有 可 能 部 署 错 误 与 交叉 验证 的 错误 程度 一 致 。 


















































— 交叉 验证 多 次 测试 结果 对 应 的 误差 分 类 率 的 平均 值 
一 一 交叉 验证 表现 最 佳 alpha 值 








10-1 107? 1073 
alpha 


5-7 ”分 类 器 在 样本 外 数据 上 的 误 分 类 性 能 

















度量 分 类 器 性 能 的 另 一 种 方式 是 AUC。AUC 的 优势 是 通过 最 大 化 AUC， 能 获得 最 
佳 性 能 并 且 与 应 用 场景 无 关 ， 不 论 是 为 不 同 错误 类 型 设置 权重 ,还 是 重点 关注 某 类 数据 
的 分 类 正确 率 。 严 格 来 讲 ， 最 大 化 AUC 不 能 确保 在 一 个 特定 的 错误 率 上 获得 最 优 性 能 。 
通过 对 比 AUC 选择 的 模型 、 通 过 最 小 化 错误 率 得 到 的 模型 以 及 观察 曲线 形状 会 帮助 获 
得 对 解 的 信心 ， 同 时 能 了 解 到 通过 彻底 的 优化 性 能 指标 ， 还 能 在 多 大 程度 上 提高 性 能 。 

代码 清单 5-4 中 AUC 的 计算 使 用 来 自 sklearn 的 roc_curve 以 及 roc auc. score 程序 。 
AEM AUC Ri a 变化 的 曲线 类 似 于 计算 误 分 类 错误 的 过 程 ， 不 同 在 于 模型 生成 的 预测 值 
以 及 真正 的 标签 值 被 传送 给 roc_auc_score 程序 来 计算 AUC。 图 5-8 绘制 了 这 些 AUC 
的 值 。 生 成 的 曲线 从 上 往 下 看 类 似 于 误 分 类 错误 曲线 ， 从 上 到 下 是 因为 AUC 的 值 越 大 
越 好 ， 误 分 类 错误 越 小 越 好 。 代 码 清单 5-4 的 打印 输出 显示 基于 误 分 类 错误 的 最 优 模型 
与 基于 AUC 的 最 优 模型 不 完全 相同 ,但 它们 距离 不 大 。 图 5-9 为 最 大 化 AUC 分 类 器 的 
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ROC 曲线 。 





一 一 交叉 验证 多 次 测试 结果 对 应 的 曲线 下 面积 
AUC 的 平均 值 
一 一 ”交叉 验证 表现 最 佳 alpha 值 


ROC 的 曲线 下 面积 











图 5-8 分 类 器 在 样本 外 数据 上 的 AUC 性 能 





真正 率 
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图 5-9 最 佳 性 能 分 类 器 的 ROC 曲线 

















在 这 个 问题 中 ， 一 些 错误 相对 于 其 他 错误 的 可 能 代价 更 大 ， 你 想 使 预测 结果 离 代价 大 
的 错误 更 远 。 对 于 岩石 水 雷 问 题 ， 如 果 将 未 爆炸 的 水 雷 作 为 岩石 ， 可 能 比 将 岩石 误 分 类 为 
水 雷 代 价 更 大 。 

处 理 这 类 问题 的 一 种 系统 性 的 方法 是 使 用 混淆 矩阵 (如 第 3 章 讨 论 的 )。 基 于 roc 
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curve 程序 输出 很 容易 构建 混淆 矩阵 。ROC 曲线 上 的 点 对 应 于 不 同 的 阅 值 。 点 (1,1) 对 
应 一 个 极端 情况 ， 即 阐 值 设置 为 最 低 值 ， 所 有 点 都 被 分 类 为 水 雷 。 这 使 得 真正 率 和 假 负 
率 等 于 1。 分 类 器 使 所 有 的 正 例 在 右边 ， 但 同时 也 错 分 了 所 有 负 例 。 将 阔 值 设置 为 比 所 有 
点 都 高 ， 生 成 了 图 形 的 另 一 角 。 为 了 获得 点 在 困惑 矩阵 不 同方 框 内 的 移动 细节 需要 挑 一 
BAERE AIR. AGTH 5-4 展示 了 3 个 辣 值 ， 这 些 阐 值 对 应 所 有 辣 值 的 分 位 点 冰 
值 (不 包含 最 后 点 )。 设置 高 阅 值 导致 低 的 假 正 率 和 高 的 假 负 率 。 设置 低 阐 值 产生 相反 效果 。 
将 阐 值 设 为 中 间 值 更 接近 于 对 两 类 错误 进行 平衡 。 

可 以 为 每 类 错误 赋 权 重 、 最 小 化 总 代价 来 获得 最 佳 辣 值 。 输 出 的 3 个 混淆 矩阵 可 以 作 
为 一 个 例子 来 说 明 背 后 的 工作 原理 。 如 果 假 正 样本 和 假 负 样本 都 会 花费 1 美元 ,中 间 表 (对 
DF BUH -0.0455) 给 出 的 总 代价 为 46 美元 ， 更 高 阔 值 对 应 的 代价 为 68 美元 ， 更 低 阔 值 
代价 为 54 美元 。 然 而 ， 如 果 假 正 的 代价 为 10 美元 ， 假 负 的 代价 为 1 美元， 更 高 赋值 对 
应 代价 为 113 美元 ， 中 间 阐 值 对 应 的 代价 为 226 美元 ， 较 低 阔 值 对 应 的 代价 为 504 美元 。 
此 时 , 你 会 希望 在 更 细 粒 度 上 测试 辣 值 。 总 体 上 , 为 了 达到 好 的 效果 , 需要 合理 设置 代价 ， 
同时 要 确保 训练 集 的 正 例 与 负 例 的 比例 与 实际 情况 相 一 致 。 岩 石 水 雷 问题 的 样本 数据 来 源 
于 实验 环境 ， 可 能 并 不 完全 代表 港口 中 实际 的 岩石 水 雷 数 字 。 这 个 很 容易 通过 对 其 中 一 个 
类 别 进行 抽样 来 修复 ， 即 复制 一 个 类 别 的 部 分 样本 使 该 类 样本 数 占 总 体 样本 数 的 比例 与 实 
际 部 署 环境 中 的 比例 相 一 致 。 

对 于 岩石 水 雷 数据 ， 对 应 的 训练 集 是 均衡 的 ， 即 正 例 和 负 侈 样本 数 几乎 相同 。 在 一 些 
数据 集中 ， 可 能 其 中 一 个 类 别 的 样本 数 要 更 多 。 例 如 ， 因 特 网 广告 的 点 击 率 只 占 所 有 展示 
广告 很 小 的 比例 ， 远 小 于 1%。 通 过 增强 样本 数 较 少 的 类 别 ， 使 二 类 比例 相 接近 可 以 获得 
更 好 的 训练 结果 。 可 以 通过 复制 样本 数 较 少 的 类 别 样 本 或 者 移 除 样本 数 较 多 的 类 别 样 本 来 
达到 上 述 目的 。 



























































代码 清单 5-4 (FA ElasticNet 回归 构建 二 分 类 器 -rocksVMinesENetRegCV.py 


, author = 'mike bowles' 

import urllib2 

from math import sqrt, fabs, exp 

import matplotlib.pyplot as plot 

from sklearn.linear model import enet path 

from sklearn.metrics import roc auc score, roc curve 


import numpy 


fread data from uci data repository 


target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
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"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 
data - urllib2.urlopen(target url) 
#arrange data into list for labels and list of lists for attributes 


xList - [] 


for line in data: 
#split on comma 
row = line.strip().split(",") 


xList.append(row) 


#separate labels from attributes, convert from attributes from string 


#to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 


for row in xList: 

lastCol = row.pop() 

if lastCol == "M": 
labels.append(1.0) 

else: 
labels.append(0.0) 

attrRow = [float(elt) for elt in row] 

xNum.append (attrRow) 


#number of rows and columns in x matrix 
nrow = len(xNum) 
ncol = len(xNum[1]) 


alpha = 1.0 


#calculate means and variances 


xMeans = [] 

XSD = [] 

for i in range(ncol): 
col = [xNum[j] [i] for j in range (nrow) ] 
mean = sum(col)/nrow 


xMeans.append (mean) 
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colDiff = [(xNum[j] [i] - mean) for j in range (nrow)] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow) ]) 
stdDev = sqrt (sumSq/nrow) 


xSD.append (stdDev) 


#use calculate mean and standard deviation to normalize xNum 
xNormalized = [] 
for i in range (nrow): 
rowNormalized = [(xNum[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncol)] 


xNormalized.append(rowNormalized) 


#normalize labels to center 


#Normalize labels 


meanLabel = sum(labels) /nrow 

sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) \ 
for i in range (nrow)]) /nrow) 

labelNormalized = [(labels[i] - meanLabel)/sdLabel for i in range (nrow)] 


#number of cross-validation folds 


nxval = 10 


for ixval in range(nxval): 


#Define test and training index sets 





idxTest = [a for a in range(nrow) if a$nxval == ixval$nxval] 
idxTrain = [a for a in range(nrow) if a$nxval != ixval$nxval] 


#Define test and training attribute and label sets 


" 


xTrain = numpy.array([xNormalized[r] for r in idxTrain]) 





m 


xTest = numpy.array([xNormalized[r] for r in idxTest]) 


labelTrain = numpy.array([labelNormalized[r] for r in idxTrain]) 





labelTest = numpy.array([labelNormalized[r] for r in idxTest]) 


alphas, coefs, = enet path(xTrain, labelTrain,ll ratio-0.8, 





fit intercept-False, return models-False) 


#apply coefs to test data to produce predictions and accumulate 


if ixval -- 


numpy. dot (x 
labelTest 


pred 
yOut 


else: 


#accumulate predic 


5.3 


Test, 


tions 
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coefs) 


((yTemp, labelTest), 


yTemp = numpy.array (yOut) 
yOut = numpy.concatenate 
#accumulate predictions 


predTemp 


numpy.conca 
0) 


pred 


axis 





tenate 


numpy.array (pred) 


( (predTemp, 


#calculate misclassification error 


mis 
nD 


for 


ClassRate [可 


d.shap 





Pred = pr 
iPred in range(1, 


list(pr 
0.20 


in range( 


predList 


errCnt 
for irow 

if (predList[i 
errCnt += 


elif (predList 





errCnt += 


nPred) 
ed[:, 


nrow): 
row] < 
1..0 

[irow] 


1.0 


iPred]) 
0.0) and (yOut[irow] 
>= 0.0) and 


misClassRate.append(errCnt/nrow) 


#find minimum point for plot and for print 


minE 


idx 





ax 


ax. 


min (misClas 


in 


tAlphas 


t.figure() 
t.plot(plotAlphas, 


label='Misclassific 


label='CV 
t. legend () 





t.semilogx() 


plot.gca() 


invert xaxis() 


sRate) 





misClassRate.index (minError) 


list(alphas[1:1len(alphas)]) 


misClassRate, 


ation 


t.axvline(plotAlphas[idxMin], 





Estima 


Error Across Folds', 


linestyle-'--', 





te of Best alpha') 


numpy.dot (xTest, 


(yOut [irow] 


axis=0) 


coefs)), 


>= 0.0): 


« 0.0) 2 


linewidth=2) 


a 
EH 
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plot.xlabel ('alpha') 





plot.ylabel('Misclassification Error') 
plot.axis('tight') 
plot.show() 


fcalculate AUC. 


idxPos = [i for i in range(nrow) if yOut[i] > 0.0] 
yOutBin = [0] * nrow 

for i in idxPos: yOutBin[i] = 1 

auc - [] 


for iPred in range(1, nPred): 
predList = list(pred[:, iPred]) 
aucCalc - roc auc score(yOutBin, predList) 


auc.append (aucCalc) 


maxAUC = max(auc) 


idxMax = auc.index (maxAUC) 


plot.figure () 

plot.plot(plotAlphas, auc, label='AUC Across Folds', linewidth=2) 
plot.axvline(plotAlphas[idxMax], linestyle-'--', 

label-2'CV Estimate of Best alpha') 





plot.legend() 








plot.semilogx() 

ax = plot.gca() 

ax.invert xaxis() 

plot.xlabel('alpha') 

plot.ylabel('Area Under the ROC Curve') 





plot.axis('tight') 
plot.show() 


#plot best version of ROC curve 


fpr, tpr, thresh - roc curve(yOutBin, list(pred[:, idxMax])) 


ctClass = [i*0.01 for i in range(101)] 
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plot.plot(fpr, tpr, linewidth=2) 
plot.plot(ctClass, ctClass, linestyle=':') 
plot.xlabel('False Positive Rate') 
plot.ylabel('True Positive Rate') 











plot.show() 

print('Best Value of Misclassification Error = ', misClassRate[idxMin]) 
print('Best alpha for Misclassification Error = ', plotAlphas[idxMin]) 
print('') 

print ('Best Value for AUC = ', auc[idxMax] ) 

print('Best alpha for AUC = ', plotAlphas[idxMax] ) 

print('') 

print ('Confusion Matrices for Different Threshold Values') 

pick some points along the curve to print. There are 208 points. 





Th xtremes aren't useful 


Sample at 52, 104 and 156. Use the calculated values of tpr and fpr 


along with definitions and threshold values. 








Some nomenclature (e.g. s wikipedia "receiver operating curve") 
P = Positive cases 
P = len(idxPos) 


N = Negative cases 








N = nrow - P 

TP = True positives = tpr * P 
TP = tpr[52] * P 

N = False negatives = P - TP 





P = False positives = fpr * N 
FP = fpr[52] * N 
TN = True negatives = N - FP 




















TN = N^ EP 


print('Threshold Value = ', thresh[52]) 
print('TP = ', TP, 'FP = ', FP) 
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print('FN = ', FN, 'TN = ', TN) 
TP = tpr[104] * P; FN = P- TP; FP = fpr[104] * N; TN = N - FP 
print('Threshold Value = ', thresh[104]) 
print('TP = ', TP, 'FP = ', FP) 
print('FN = ', FN, 'TN = ', TN) 
TP = tpr[156] * P; FN = P = TP; FP = fpr[156] * N; TN = N = FP 
print('Threshold Value = ', thresh[156]) 
print('TP = ', TP, 'FP = ', FP) 
print('FN = ', FN, 'TN = ', TN) 
Printed Output: [filename - rocksVMinesENetRegCVPrintedOutput.txt] 


("Best 
("Best 


("Best 
("Best 


Value for AUC 
alpha for AUC 


Confusion Matrices for 





('Threshold Value = ', 
('TP = ', 48.0, 'FP = 
('FN = ', 63.0, 'TN = 
('Threshold Value = ', 
(‘TP = ', 85.0, ‘FP = 
("FN = ', 26.0, 'TN = 
("Threshold Value = ', 
('TP = ', 107.0, 'FP = 
("FN = ', 4.0, 'TN = ' 





Value of Misclassification 


alpha for Misclassification 


和 





Error , 0.22115384615384615) 
Error = ', 0.017686244720179375) 








', 0.86867279650784812) 
', 0.020334883589342503) 


Different Threshold Values 
0.37952298245219962) 

;- 590) 

p 92.0) 
-0.045503481125357965) 

, 20.0) 

, 11.0) 
-0.4272522354395466) 

', 49.999999999999993) 
47.000000000000007) 


交叉 验证 给 你 一 个 稳定 的 性 能 佑 计 ， 可 以 据 此 了 解 实 际 应 用 系统 的 性 能 。 如 果 交 
又 验证 给 出 的 性 能 不 够 好 ， 需 要 努力 提升 。 例 如 ， 可 以 尝试 使 用 基 扩 展 (如 “多 变 


量 感 ” 


JOS 


回归 : 预测 红酒 口 


由 











对 应 的 基 扩 展 )。 也 可 以 查看 性 能 表现 最 差 的 样本 ， 看 能 否 





发 现 问 题 ， 如 数据 预 处 理 错 误 ， 如 某 个 特征 对 错误 的 影响 最 大 。 如 果 发 现 的 错误 刚 
好 解决 了 你 的 问题 ， 那 么 就 应 该 利用 整个 数据 集 来 训练 部 署 模型 。 我 们 将 在 下 一 节 





介绍 该 过 程 





o 
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构建 部 署 用 的 岩石 水 雷 分 类 器 











对 于 红酒 品质 预测 案例 ， 完 成 alpha 选择 后 ， 下 一 步 是 在 全 部 数据 集 上 重新 训练 模型 ， 
学 习 最 佳 alpha 对 应 的 权重 系数 。 最 佳 alpha 是 指 能 够 最 小 化 样本 外 错误 的 参数 ， 本 例 通 
过 交叉 验证 进行 估计 。 代 码 清 单 5-5 为 完成 该 过 程 的 代码 。 








代码 清单 5-5 ”在 岩石 水 雷 数 据 上 训练 ElasticNet 模型 的 系数 曲线 - rocksVMinesCoef Curves.py 


_ author = 'mike bowles' 

import urllib2 

from math import sqrt, fabs, exp 

import matplotlib.pyplot as plot 

from sklearn.linear model import enet pathsh 

from sklearn.metrics import roc auc score, roc curve 


import numpy 


#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 


xList - [] 


for line in data: 
fsplit on comma 
row = line.strip().split(",") 


xList.append(row) 


#separate labels from attributes, convert attributes from 


#string to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 


for row in xList: 
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lastCol = row.pop() 
if lastCol == "M": 
labels.append(1.0) 
else: 
labels.append(0.0) 
attrRow = [float(elt) for elt in row] 
xNum.append(attrRow) 


#number of rows and columns in x matrix 
nrow = len(xNum) 
ncol = len(xNum[1]) 


alpha = 1.0 


#calculate means and variances 


xMeans = [] 

XSD = [] 

for i in range(ncol): 
col = [xNum[j][i] for j in range (nrow) ] 
mean = sum(col) /nrow 


xMeans.append (mean) 


colDiff = [(xNum[j] [i] - mean) for j in range (nrow) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow)]) 
stdDev = sqrt (sumSq/nrow) 


xSD.append (stdDev) 
fuse calculate mean and standard deviation to normalize xNum 
xNormalized = [] 
for i in range (nrow): 
rowNormalized = [(xNum[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncol)] 


xNormalized.append(rowNormalized) 


#normalize labels to center 


meanLabel = sum(labels) /nrow 
sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) \ 
for i in range (nrow)]) /nrow) 


labelNormalized = [(labels[i] - meanLabel)/sdLabel for i in range (nrow)] 
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#Convert normalized labels to numpy array 


Y = numpy.array (labelNormalized) 


#Convert normalized attributes to numpy array 


X = numpy.array (xNormalized) 


alphas, coefs, = enet path(X, Y,11 ratio-0.8, fit intercept-False, 


return models-False) 
plot.plot(alphas,coefs.T) 
plot.xlabel('alpha') 


plot.ylabel('Coefficients') 
plot.axis('tight') 








plot.semilogx() 
ax = plot.gca() 
ax.invert xaxis () 


plot.show() 


nattr, nalpha = coefs.shape 


#find coefficient ordering 
nzList - [] 
for iAlpha in range(1,nalpha): 
coefList = list(coefs[: ,iAlpha]) 
nzCoef = [index for index in range(nattr) if coefList[index] !- 0.0] 
for q in nzCoef: 
if not(q in nzList): 


nzList.append(q) 


#make up names for columns of X 
names = ['V' + str(i) for i in range (ncol)] 
nameList = [names[nzList[i]] for i in range(len(nzList))] 


print("Attributes Ordered by How Early They Enter the Model") 











print (nameList) 

print('') 

#find coefficients corresponding to best alpha value. alpha value 
corresponding to normalized X and normalized Y is 0.020334883589342503 


alphaStar = 0.020334883589342503 


186 | 第 5 章 使 用 惩罚 线性 方法 来 构建 预测 模型 


indexLTalphaStar = [index for index in range(100) if \ 
alphas[index] > alphaStar] 


indexStar = max(indexLTalphaStar) 


#here's the set of coefficients to deploy 
coefStar = list(coefs[:,indexStar]) 
print("Best Coefficient Values ") 

print (coefStar) 

print('") 


#The coefficients on normalized attributes give another slightly 





#different ordering 


absCoef = [abs(a) for a in coefStar] 


#sort by magnitude 








coefSorted = sorted(absCoef, reverse-True) 
idxCoefSize = [absCoef.index(a) for a in coefSorted if not(a == 0.0)] 
namesList2 - [names[idxCoefSize[i]] for i in range(len(idxCoefSize))] 


print("Attributes Ordered by Coef Size at Optimum alpha") 


print (namesList2) 





Printed Output: [filename - rocksVMinesCoefCurvesPrintedOutput.txt] 
Attributes Ordered by How Early They Enter the Model 

['NLQ', 'VAB', "VIL, 'VAA', "V35', WSL", TV20; 'VSt', 'V21', "V45', 
VAST "VES “WOT, UUZZ', TM2UT*., IWOOT MYS ae “VoD TVOSS', "VSG"; 
"Vor T"VS9T, "y4o", "M19", "V54t', tV29T, TSL p "Vet “VBE, WT, 
VAGT FV2t, "V23', TVET); T'V55^, "V4, TVIS', 'V36', 'V38', 'V26*, 
"VSL EVI UM3at, TV33", M24 p TVL" '"VIT'!, VS", 'V52', "VAL", 
'VAO', 'V59', 'V12', 'V9', 'V18', 'V14', 'V47', 'V42'] 











Best Coefficient Values 

[0.082258256813766639, 0.0020619887220043702, -0.11828642590855878, 
0.16633956932499627, 0.0042854388193718004, -0.0, -0.04366252474594004, 
-0.07751510487942842, 0.10000054356323497, 0.0, 0.090617207036282038, 
0.21210870399915693, -0.0, -0.010655386149821946, -0.0, 
-0.13328659558143779, -0.0, 0.0, 0.0, 0.052814854501417867, 
0.038531154796719078, 0.0035515348181877982, 0.090854714680378215, 


.030316113904025031, 
.174976792572712536, 


5.3 


-0.0, 0.0, 
-0.2215687804617206, 
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0.0086195542357481014, 
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05-0, 0.0; 
0.012614243827937584, 


205. —0.0, 


.0, -0.0, 


0.0, 
.078096790041518344, 
0.0, 


-0.17160601809439849, 


0.057018816876250704, 


0.022035287616766441, 


-0.080450013824209077, 
-0.072184409273692227, 
0.096478265685721556, 


O CO OOOO 


.039917367637236176, 


-0.096272735479951091, 


0.062312821755756878, 


-0.074326527525632721, 


0.070488864435477847, 


0.049158231541622875, 
0.0, 


-0.082785510713295471, 
0.068096475974257331, 


0.0] 


0.078886784332226484, 


0.0, 0.22671917920123755, 
0.0, 
0.014466967172068596, 


Attributes Ordered by Coef Size at Optimum alpha 


['V4Bt, 'V30', WLI, 
'V49', 'V22', 'V10', 
'V39', 'V58', 'V57', 
"VAST, v38"; TV55"; 


'N29', "W35", TVS", 'Vib5', 'V2', "VB", VAA "3 
"NS4',. TVO 'V36t', TMOL; TWIT" TVT" "Vb"? 
'V53', 'V43', 'V19', 'V46', 'V6', 'V45', "V207; 
"VSI"; "VL3', 'V26', "V4", 'V21', "YLM 


代码 清单 5-5 的 结构 类 似 于 代码 清单 5-4， 除 了 不 包括 交叉 验证 循环 。alpha 的 值 是 





alpha 值 ， 一 个 是 最 





直接 从 代码 清单 5-4 硬 编码 生成 的 ， 具 体 包括 2 个 alpha 值 : 
人 是 最 大 化 AUC 的 alpha 值 。 最 大 化 AUC 的 alpha 值 稍 大 并 且 更 加 


一 个 是 最 小 化 误 分 类 错误 的 
保守 ， 更 











加 保守 是 因为 该 alpha 比 最 小 化 分 类 错误 的 alpha 值 更 靠近 左边 。 程 序 打印 系数 显示 在 代 


码 的 最 下 边 。 对 于 60 个 系数 ， 约 有 20 个 系数 值 为 0。 对 于 此 运行 

















(交叉 验证 )，11_ratio 


变量 设 为 0.8， 这 会 比 11_ratio 变量 设 为 1 的 套 索 回归 生成 更 多 系数 。 





关于 变量 重要 性 的 指标 在 代码 的 最 后 打印 出 来 。 衡 











量变 量 重要 性 的 一 个 指标 是 随 着 


alpha 减少 ， 进 入 解 的 变量 顺序 。 另 一 个 指标 是 根据 最 优 解 的 特征 系数 大 小 得 到 的 排序 。 
































正如 红酒 质量 数据 所 讨论 的 ， 这 些 顺序 只 有 当 属 性 归 一 化 以 后 才 有 意义 。 上 述 两 种 不 同 
的 变量 顺序 存在 一 定 的 一 致 性 ， 但 它们 也 并 不 完全 相同 。 例 如 ， 变 量 





V48, V11, V35, 





V44 fil V3 在 两 个 列表 中 的 排名 都 很 高 ， 但 是 V10 出 现在 第 一 个 排序 的 开始 ， 基 于 系数 大 
显然 ， 当 系数 惩罚 项 很 大 时 ， 算 法 只 允许 一 个 属性 加 入 ， 此 





小 排序 ，V10 排名 非常 靠 后 。 











时 V10 很 重要 ,但 是 当 系数 惩罚 项 收缩 到 所 有 属性 被 包含 进来 的 对 应 点 时 ，V10 属性 的 
而 且 随 着 其 他 属性 被 添加 进来 ， 重 要 性 也 下 降 。 
典型 地 ， 物 体 对 与 其 同等 波长 级 别 的 电磁 波 的 反射 能 力 最 强 。 水 雷 〈 人 金属 





重要 性 就 变 得 平稳 ， 


























圆柱 体 ) 有 





长 度 和 直径 ， 和 岩石 比 起 来 反射 波 波长 可 能 较 短 也 可 能 较 长 ， 性 质 表 现 更 加 不 规则 ， 反 射 
的 波长 范围 也 更 广 。 因 为 数据 的 所 有 属性 值 为 正 代表 功率 级 别 )， 你 可 以 预计 低频 波长 
的 权重 为 正 ， 高 频 波长 的 权重 为 负 。 你 也 可 以 发 现 这 种 差异 如 何 会 导致 数据 过 拟 合 ， 即 构 





























建 的 模型 在 训练 数据 上 表现 良好 ， 但 泛 化 性 能 较 差 。 交 叉 验 证 过 程 确保 只 要 训练 数据 同 实 
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际 部 署 数据 类 似 ， 模 型 就 不 会 过 拟 合 。 交 叉 验 证 错误 与 实际 部 署 错 误 应 该 一 致 ， 即 部 署 时 
的 岩石 - 水 雷 数 比 例 应 该 与 训练 数据 中 的 比例 一 致 。 

图 5-10 为 使 用 ElasticNet 回归 模型 在 完整 的 岩石 水 雷 数据 集 上 的 系数 曲线 。 曲 线 展示 
了 模型 复杂 度 以 及 属性 的 相对 重要 性 的 变化 情况 。 
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图 5-10 ”在 岩石 水 雷 数据 上 应 用 ElasticNet 得 到 的 系数 曲线 
































正如 第 4 章 提 到 的 ， 另 一 种 使 用 惩罚 线性 回归 模型 进行 分 类 的 方法 是 使 用 惩罚 逻辑 
回归 。 代 码 清单 5-5 为 使 用 惩罚 逻辑 回归 来 构建 岩石 水 雷 分 类 器 的 实现 代码 。 代 码 以 
及 结果 展示 了 两 种 方法 的 相同 和 不 同 之 处 。 算 法 差异 可 以 从 迭代 的 结果 中 发 现 。 逻 辑 
回归 方法 使 用 特征 的 线性 函数 来 计算 每 个 训练 样本 属于 岩石 还 是 水 雷 的 概率 或 者 似 
然 ( 可 以 到 http://en.wikipedia.org/wiki/Logistic_regression 寻找 更 多 关于 逻辑 回归 的 
背景 ， 以 及 相关 的 偏 导 计 算 )。 不 含 惩罚 项 的 逻辑 回归 算法 称 作 闪 代 重 加 权 最 小 二 乘 
ik (IRLS)。 名 字 来 源 于 算法 的 本 质 (参照 http://en.wikipedia.org/wiki/Iteratively 
Teweighted_least_squares) 。 算 法 利用 训练 样本 的 概率 估计 来 计算 权重 。 给 定 权 重 ， 问 
题 变 为 加 权 的 最 小 二 乘法 问题 。 该 过 程 不 断 迭 代 直 到 概率 收敛 (对 应 权重 不 再 改变 )。 
dE, ARAM IRLS 算法 相当 于 为 第 4 章 的 惩罚 线性 回归 算法 ( 非 逻辑 回归 ) 
添加 了 男 一 层 迭 代 。 

将 数据 读 入 并 归 一 化 后 ， 程 序 对 权重 及 概率 进行 初始 化 ， 这 些 权重 及 概率 是 逻辑 回归 
以 及 惩罚 版 本 的 逻辑 回归 的 核心 。 这些 概 率 及 权重 随 着 惩罚 参数 的 减少 同系 数 8 一 起 计算 ， 
IFEK, IRLS 字母 被 附加 到 一 些 变量 名 称 上 ， 目 的 是 表明 这 些 变量 是 和 IRLS fH 
关 的 变量 。 对 概率 估计 的 迭代 通过 循环 进行 ， 循 环 目的 是 降低 4 以 及 对 8 的 坐标 下 降 进 行 


















































—, 




































































53 ”二 分 类 : 使 用 惩罚 线性 回归 来 检测 未 爆炸 的 水 雷 | 189 





封装 。 

逻辑 回归 的 更 新 细节 相 较 于 普通 的 惩罚 线性 回归 〈 非 逻辑 回归 ) 更 加 复杂 。 复 杂 性 一 
方面 体现 在 IRLS 中 权重 的 相关 计算 ， 每 来 一 个 样本 ,权重 及 概率 计算 一 壳 。 代 码 使 用 变量 
w 和 pp 来 代表 权重 和 概率 。 算 法 也 需要 收集 权重 (weights) 对 于 乘积 和 (Sum of products) 
的 效果 ， 典 型 乘积 包括 属性 乘 以 残 差 以 及 属性 值 平方 。 上 述 乘 积 和 在 代码 里 使 用 sum Wxx 
变量 来 定义 ， 具 体 地 ，sum Wxx 是 一 个 list 对 象 ， 每 个 元 素 为 权重 乘 以 对 应 属性 值 平方 。 复 
杂 性 的 另 一 方面 体现 在 残 差 是 标签 、 概 率 以 及 属性 值 以 及 相关 系数 (8). 的 函数 。 

代码 生成 了 变量 重要 性 顺序 及 系数 曲线 ， 目 的 是 与 使 用 非 逻辑 回归 生成 的 变量 顺序 及 曲 
线 进行 比较 。 逻 辑 转 换 使 得 直接 进行 系数 比较 存在 问题 ， 因 为 逻辑 函数 对 应 非 线 性 变化 。 普 
通 线性 回归 以 及 逻辑 回归 都 会 生成 一 个 系数 向 量 ， 然 后 乘 以 属性 值 ， 最 后 和 闽 值 比较 。 阔 值 
设置 相对 次 要 ， 因 为 它 可 以 在 训练 完成 后 来 确定 。 所 以 8 的 整体 尺度 和 各 个 特征 值 的 相对 大 
小 比较 并 不 重要 。 一 种 判断 相对 大 小 的 方法 是 查看 两 种 方法 引入 新 变量 的 顺序 。 通 过 比较 代 
码 清单 5-5 和 代码 清单 5-4 的 打印 结果 ， 两 种 方法 对 排序 最 高 的 前 8 个 属性 的 判断 是 一 致 的 。 
对 于 接 下 来 的 8 个 变量 ， 有 7 个 变量 同时 出 现在 两 个 列表 中 ， 尽 管 也 有 很 小 的 区 别 。 接 下 来 
的 8 个 变量 也 几乎 相同 。 这 说 明 两 种 方法 对 属性 重要 性 顺序 的 判断 非常 一 致 。 

另 一 个 问题 是 哪 种 方法 性 能 更 好 ， 回 答 这 个 问题 需要 对 惩罚 届 辑 回归 运行 交叉 验证 ， 
好 在 你 已 经 有 相关 的 工具 及 代码 来 开展 工作 。 代 码 清 单 5-6 没有 从 速度 角度 进行 优化 ， 但 
在 岩石 水 雷 问 题 上 运行 应 该 不 会 花费 大多 时 间 。 




































































































































































代码 清单 5-6 ”在 岩石 水 雷 数据 上 训练 惩罚 逻辑 回归 模型 - rocksVMinesGImnet.py 


, author = 'mike bowles' 
import urllib2 

import sys 

from math import sqrt, fabs, exp 


import matplotlib.pyplot as plot 


def S(z,gamma): 
if gamma >= fabs(z): 
return 0.0 
if z > 0.0: 
return z - gamma 
else: 


return z + gamma 


def Pr(b0,b,x): 
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n = len(x) 
sum = b0 
for i in range(n): 
sum += b[i]*x[il] 
if sum < -100: sum = -100 
return 1.0/(1.0 + exp(-sum) ) 


#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data - urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList - [] 


for line in data: 
fsplit on comma 
row = line.strip().split(",") 


xList.append(row) 


#separate labels from attributes, convert from attributes from string 


#to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 


for row in xList: 

lastCol = row.pop() 

if lastCol == "M": 
labels.append(1.0) 

else: 
labels.append(0.0) 

attrRow = [float(elt) for elt in row] 

xNum.append(attrRow) 


#number of rows and columns in x matrix 
nrow = len(xNum) 


ncol = len(xNum[1]) 
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alpha = 0.8 


#calculate means and variances 


xMeans = [] 

xSD = [] 

for i in range(ncol): 
col = [xNum[j] [i] for j in range (nrow) ] 
mean = sum(col)/nrow 


xMeans.append (mean) 

colDiff = [(xNum[j] [i] - mean) for j in range (nrow) ] 

sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow)]) 
stdDev = sqrt (sumSq/nrow) 

xSD. append (stdDev) 


#use calculate mean and standard deviation to normalize xNum 
xNormalized = [] 
for i in range(nrow): 
rowNormalized = [(xNum[i][j] - xMeans[j])/xSD[j] ^ 
for j in range(ncol) ] 


xNormalized.append (rowNormalized) 


#Do Not Normalize labels but do calculate averages 
meanLabel = sum(labels) /nrow 
sdLabel = sqrt(sum([(labels[i] - meanLabel) * (labels[i] - meanLabel) \ 


for i in range (nrow)])/nrow) 


finitialize probabilities and weights 


sumWxr = [0.0] * ncol 
sumWxx = [0.0] * ncol 
sumWr = 0.0 
sumW = 0.0 


#calculate starting points for betas 
for iRow in range (nrow): 

p = meanLabel 

w=p * (1.0 = p) 

#residual for logistic 

r = (labels[iRow] - p) / w 

x = xNormalized[iRow 


sumWxr = [sumWxr[i] +w * x[i] * r for i in range (ncol)] 








sumWxx = [sumWxx[i] + w * x[i] * x[i] for i in range (ncol)] 


sumWr = sumWr + w * r 
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sumW = sumW + w 
avgWxr = [sumWxr[i]/nrow for i in range(ncol) ] 
avgWxx = [sumWxx[i]/nrow for i in range(ncol) ] 
maxWxr = 0.0 


for i in range(ncol): 
val = abs (avgWxr [il] ) 
if val > maxWxr: 


maxWxr = val 


#calculate starting value for lambda 


lam = maxWxr/alpha 


#this value of lambda corresponds to beta = list of O's 
#initialize a vector of coefficients beta 
beta = [0.0] * ncol 


beta0 = sumWr/sumW 
#initialize matrix of betas at each step 
betaMat = [] 


betaMat.append (list (beta) ) 


betaO0List = [] 





beta0List.append (beta0) 


fbegin iteration 
nSteps = 100 
lamMult = 0.93 #100 steps gives reduction by factor of 1000 in lambda 
# (recommended by authors) 
nzList = [] 
for iStep in range(nSteps): 
#decrease lambda 


lam = lam * lamMult 


#Use incremental change in betas to control inner iteration 


#set middle loop values for betas = to outer values 


#values are used for calculating weights and probabilities 








#inner values are used for calculating penalized regression updates 


25.3 


#take pass through data to calculat 
#for iteration 


#initilize accumulators 





betaIRLS = list (beta) 
betaOIRLS = beta0 
distIRLS = 100.0 


二 分 类 : 使 用 惩罚 线性 回归 来 检测 未 爆炸 的 水 雷 





averages over data required 


#Middle loop to calculate new betas with fixed IRLS weights and 


#probabilities 

iterIRLS = 0 

while distIRLS > 0.01: 
iterIRLS += 1 
iterInner = 0.0 

betaInner = list (betaIRLS) 

beta0Inner = beta0IRLS 

100.0 

while distInner > 0.01: 





distInner = 


iterInner += 1 


if iterInner > 100: break 


#cycle through attributes and update one-at-a-time 


#record starting value for comparison 


betaStart = list(betaInner) 


for iCol in range (ncol): 


sumWxr = 0.0 
sumWxx = 0.0 
sumWr = 0.0 
sumW = 0.0 


for iRow in range (nrow): 


x = 
y = labels [iRow] 
p = Pr(betaOIRLS, 
if abs(p) < le-5: 
p^ 0.0 
w = le-5 
elif abs(1.0 - p) 
p= 1.0 


list (xNormalized[iRow] ) 


betaIRLS, x) 


< le-5: 
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w = le-5 
else: 


wap * (1.0 - p) 


z= (y - p) / w + betaOIRLS + sum([x[i] * 
betaIRLS[i] for i in range(ncol)]) 





r= z - beta0Inner - sum([x[i] * betaInner[i] 
for i in range (ncol)]) 


sumWxr += w * x[iCol] * r 





sumWxx += w * x[iCol] * x[iCol] 
sumWr += w * r 


sumW += w 


avgWxr = sumWxr / nrow 


avgWxx = sumWxx / nrow 


beta0Inner = beta0Inner + sumWr / sumW 





uncBeta = avgWxr + avgWxx * betaInner[iCol] 
betaInner[iCol] = S(uncBeta, lam * alpha) / (avgWxx 十 
lam * (1.0 - alpha) ) 
sumDiff = sum([abs(betaInner[n] - betaStart[n]) \ 
for n in range (ncol)]) 
sumBeta = sum([abs(betaInner[n]) for n in range (ncol)]) 
distInner = sumDiff/sumBeta 
print number of steps for inner and middle loop convergence 
to monitor behavior 


print(iStep, iterIRLS, iterInner) 


if exit inner while loop, then set betaMiddle = betaMiddle 
and run through middle loop again. 








Check change in betaMiddle to see if IRLS is converged 





a = sum([abs(betaIRLS[i] - betaInner[i]) for i in range (ncol)]) 
b = sum([abs(betaIRLS[i]) for i in range (ncol)]) 
distIRLS = á / (b + 0.0001) 
dBeta = [betaInner[i] - betaIRLS[i] for i in range (ncol)] 
gradStep - 1.0 
temp = [betaIRLS[i] + gradStep * dBeta[i] for i in range (ncol)] 


betaIRLS = list (temp) 





beta = list(betaIRLS) 
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beta0 = betaOIRLS 
betaMat.append(list (beta) ) 
beta0List.append (beta0) 


nzBeta = [index for index in range(ncol) if beta[index] != 0.0] 
for q in nzBeta: 
if not(q in nzList): 


nzList.append(q) 


#make up names for columns of xNum 
names = ['V' + str(i) for i in range (ncol)] 


nameList = [names[nzList[i]] for i in range(len(nzList))] 








print("Attributes Ordered by How Early They Enter the Model") 





print (nameList) 


for i in range (ncol): 





plot range of beta values for each attribute 
coefCurve = [betaMat[k][i] for k in range (nSteps)] 
xaxis - range (nSteps) 


plot.plot(xaxis, coefCurve) 





plot.xlabel("Steps Taken") 
plot.ylabel("Coefficient Values") 
plot.show() 


Printed Output: [filename - rocksVMinesGlmnetPrintedOutput.txt] 





Attributes Ordered by How Early They Enter the Model 

CVLO; "V48', "VIL*', 'V44', 'VS5', VSL "V20', "VS", "'V50', 'V21L', 
YAS Ty "WAT, TILS"; '"V2y', TVO; "V22', '"V36', 'V30', 'V53', 'V56', 
"VSe ry TVG": TVIST; "V28", TV39', VAS", IVI, 'V23',-'W54',-. TVET, 
mylar, "V2"; *V29', M38") "VOT", "VAS TWIST, 'V32', TV3TI', "V42", 
"VLET "VBI", 'V59', 'V52', 'V25', "VIS", 'Vi', 'V33', "V4", "V55"; 
"VITT 'V4A6', 'V26', "V12', 'VAO', "W384", "VE", "V24', VAL "V9" ] 








图 5-11 展示 了 使 用 惩罚 逻辑 回归 的 岩石 水 雷 系数 曲线 。 正 如 所 标记 的 ， 系 数 尺度 与 
普通 惩罚 线性 回归 尺度 不 同 ， 因 为 两 种 方法 使 用 的 逻辑 函数 不 同 。 普 通 回归 尝试 为 目标 0 
和 1 拟 合 一 条 直线 ,逻辑 回归 通过 拟 合 一 条 “对 数 奇数 比 ”的 直线 来 预测 类 别 成 员 的 概率 。 
假设 p 是 样本 属于 水 雷 类 别 的 概率 ， 然 后 奇数 比 等 于 p/1 - p。 对 数 奇数 比 是 奇数 比 的 自 
然 对 数 。 只 要 pp 的 范围 是 0 一 1， 对 数 奇数 比 的 范围 就 是 -一 。 对 数 奇数 比 非常 大 并 
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且 为 正 表 明 预 测 样本 属于 水 雷 类 的 结论 非常 确定 。 负 的 较 大 的 数值 对 应 于 岩石 类 别 。 








0 20 40 60 80 100 
迭代 步 数 
图 5-11 在 岩石 水 雷 数据 上 训练 ElasticNet 惩罚 逻辑 回归 得 到 的 系数 曲线 





















































因为 两 种 方法 的 预测 差异 非常 大 , 所 以 生成 的 预测 尺度 不 同 , 对 应 属性 的 系数 也 不 同 。 
晶 正 如 两 种 程序 打印 输出 所 表现 的 ， 变 量 出 现在 解 的 顺序 非常 类 似 ， 这 可 以 通过 系数 曲线 
中 出 现 的 前 几 个 属性 印证 得 到 。 











s 





5.4 多 类 别 分 类 - 分 类 犯罪 现场 的 玻璃 样本 

上 一 节 看 到 的 岩石 水 雷 问 题 称 作 2 分 类 问题 ， 即 预测 只 能 取 两 种 可 能 值 中 的 1 种 〈 即 返回 
的 声 纳 是 来 自 于 岩石 ， 还 是 水 雷 的 反射 ? ) 如 果 预 测 标签 不 止 两 个 值 ， 那 么 问题 称 作 多 类 别 分 
类 问题 。 本 节 使 用 惩罚 线性 回归 来 解决 玻璃 样本 分 类 问题 ， 正 如 第 2 章 讨论 的 ， 玻 璃 样本 包含 9 
个 物理 化 学 指标 (基于 其 化 学 组 成 的 折射 率 )、6 种 类 型 玻璃 ， 共 214 个 样本 。 问 题 是 使 用 物 
理化 学 指标 来 确定 给 定 样本 属于 6 种 类 型 的 哪 一 种 。 实 际 应 用 于 犯罪 或 者 车 祸 现场 的 法 医 分 
析 。 数 据 来 源 于 UCI 数据 集 ， 相 关 页 面 提供 了 一 篇 使 用 支持 向 量 机 求解 问题 的 论文 。 在 阅读 
完 解决 该 问题 的 代码 后 ， 本 节 将 对 惩罚 线性 回归 方法 以 及 支持 向 量 机 的 方法 进行 性 能 比较 。 

代码 清单 5-7 为 解决 该 问题 的 代码 。 


代码 清单 57 使 用 惩罚 线性 回归 的 多 类 别 分 类 -分 类 犯罪 现场 的 玻璃 样本 - glass ENetRegCV.py 
































import urllib2 
from math import sqrt, fabs, exp 


import matplotlib.pyplot as plot 
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from sklearn.linear model import enet path 
from sklearn.metrics import roc auc score, roc curve 


import numpy 


target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/glass/glass.data") 
data - urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList = [] 
for line in data: 

#split on comma 

row = line.strip().split(",") 


xList.append(row) 
names = ['RI', 'Na', 'Mg', 'Al', 'Si', 'K', 'Ca', 'Ba', 'Fe', 'Type'] 


#Separate attributes and labels 
xNum = [] 


labels = [] 


for row in xList: 
labels.append(row.pop()) 
l = len(row) 
#eliminate ID 
attrRow = [float(row[i]) for i in range(1, 1)] 


xNum.append (attrRow) 


#number of rows and columns in x matrix 
nrow = len(xNum) 


ncol = len(xNum[1]) 


create one versus all label vectors 

get distinct glass types and assign index to each 
yOneVAll = [] 

labelSet = set(labels) 

labelList = list(labelSet) 

labelList.sort() 

nlabels = len(labelList) 

for i in range (nrow): 

yRow = [0.0]*nlabels 
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index = labelList.index(labels[i]) 
yRow[index] = 1.0 
yOneVA11. append (yRow) 


#calculate means and variances 


xMeans = [] 

xSD = [] 

for i in range(ncol): 
col = [xNum[j][i] for j in range (nrow) ] 
mean = sum(col) /nrow 


xMeans.append (mean) 


colDiff = [(xNum[j] [i] - mean) for j in range (nrow) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow)]) 
stdDev = sqrt (sumSq/nrow) 


xSD.append (stdDev) 


#use calculate mean and standard deviation to normalize xNum 
xNormalized = [] 
for i in range (nrow): 
rowNormalized = [(xNum[i][j] - xMeans[j])/xSD[j] \ 
for j in range (ncol)] 


xNormalized.append(rowNormalized) 


#normalize y's to center 

yMeans = [] 

ysD = [] 

for i in range(nlabels): 
col = [yOneVAll[j][i] for j in range(nrow) ] 
mean = sum(col)/nrow 


yMeans.append (mean) 


colDiff = [(yOneVA11[j] [i] - mean) for j in range(nrow) ] 
sumSq = sum([colDiff[i] * colDiff[i] for i in range (nrow) ]) 
stdDev = sqrt (sumSq/nrow) 


ySD.append (stdDev) 


yNormalized = [] 
for i in range (nrow): 
rowNormalized = [(yOneVAll[i][j] - yMeans[j])/ySD[j] \ 
for j in range (nlabels)] 


yNormalized.append(rowNormalized) 
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#number of cross-validation folds 
nxval = 10 

nAlphas=200 

misClass = [0.0] * nAlphas 


for ixval in range (nxval): 
#Define test and training index sets 


idxTest = [a for a in range(nrow) if a$nxval == ixval%nxval] 





idxTrain = [a for a in range(nrow) if a$nxval != ixval%nxval] 


#Define test and training attribute and label sets 








xTrain = numpy.array([xNormalized[r] for r in idxTrain]) 
xTest = numpy.array([xNormalized[r] for r in idxTest]) 
yTrain = [yNormalized[r] for r in idxTrain] 

yTest = [yNormalized[r] for r in idxTest] 

labelsTest = [labels[r] for r in idxTest] 





build model for each column in yTrain 





models - [] 
lenTrain = len(yTrain) 
lenTest = nrow - lenTrain 





for iModel in range (nlabels): 


yTemp = numpy.array([yTrain[j][iModel] 





for j in range(lenTrain)]) 


models.append(enet path(xTrain, yTemp,11 ratio-1.0, 





fit intercept-False, eps-0.5e-3, n alphas-nAlphas , 





return models-False)) 


for iStep in range(1,nAlphas): 
#Assemble the predictions for all the models, find largest 
#prediction and calc error 
allPredictions - [] 
for iModel in range (nlabels): 
_, Coefs, _ = models[iModel] 
predTemp = list(numpy.dot(xTest, coefs[:,iStep])) 
fun-normalize the prediction for comparison 
predUnNorm = [(predTemp[j]*ySD[iModel] + yMeans[iModel]) ^ 
for j in range (len (predTemp))] 


allPredictions.append (predUnNorm) 
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predictions = [] 
for i in range(lenTest): 
listOfPredictions = [allPredictions[j][i] \ 
for j in range(nlabels) ] 
idxMax = listOfPredictions.index(max(listOfPredictions)) 
if labelList[idxMax] != labelsTest[i]: 


misClass[iStep] += 1.0 
misClassPlot = [misClass[i]/nrow for i in range(1, nAlphas)] 
plot.plot (misClassPlot) 


plot.xlabel("Penalty Parameter Steps") 





plot.ylabel(("Misclassification Error Rate")) 


plot.show() 


代码 第 一 部 分 用 于 从 UCI 网 站 读 取 数据 ， 同 时 将 属性 与 标签 分 离开 。 属 性 以 常见 的 
方式 进行 归 一 化 。 使 用 “一 对 所 有 ”进行 多 类 别 分 类 的 方法 在 标签 处 理 上 存在 一 些 差 异 。 
“一 对 所 有 ”方法 针对 每 个 标签 生成 一 个 要 预测 的 标签 向 量 。 回 归 和 2 分 类 问题 只 包含 一 
个 标签 向 量 ， 而 玻璃 问题 存在 6 个 标签 ， 所 以 对 应 生成 6 个 标签 向 量 。 这 么 做 的 原因 是 : 
如 果 将 数据 点 划分 为 两 组 ， 一 个 平面 就 可 以 做 到 。 如 果 问 题 是 将 数据 点 划分 为 6 组 ， 那 么 
需要 多 个 平面 。 

“一 对 所 有 ”训练 的 分 类 器 个 数 与 标签 个 数 相同 。 这 些 不 同 分 类 器 针对 不 同 的 标签 
向 量 训练 得 到 。 代 码 清 单 5-7 展示 了 如 何 基 于 给 定 问题 的 原始 类 别 标 签 来 构建 新 的 标签 。 
方法 非常 类 似 于 第 4 章 看 到 的 方法 ， 用 于 将 类 别 变量 转换 为 数值 变量 。 代 码 清单 使 用 
Python 集合 来 提取 不 同 标签 ， 按 从 小 到 大 的 顺序 排列 (不 是 完全 必须 的 ， 但 对 保持 代码 
条 理性 很 有 帮助 ) ， 形 成 了 一 个 标签 列表 ， 对 于 每 一 行 数据 ， 使 用 一 个 新 的 标签 行 来 表示 
原始 标签 ， 如 果 原 始 标签 取 第 一 个 标签 值 ， 那 么 新 标签 行 的 第 一 列 为 1 ; 如果 原始 标签 取 
第 2 个 标签 值 ， 那 么 新 标签 行 的 第 2 列 为 1， 以 此 类 推 。 你 可 以 看 到 为 什么 被 称 作 “一 对 
所 有 ”了 。 第 一 列 的 标签 会 产生 一 个 2 分 类 器 ， 用 于 预测 样本 是 否 取 第 1 个 标签 值 。6 个 
分 类 器 的 每 一 个 都 需要 做 类 似 的 二 分 类 决策 。 

继续 往 下 ， 沿 着 我 们 熟悉 的 线路 ， 代 码 构 建 一 个 交叉 验证 循环 。 一 个 较 小 的 差别 是 原 
始 标签 也 被 切 分 为 测试 集 ， 用 于 后 续 误 分 类 错误 的 度量 。 模 型 训练 存在 一 个 明显 差异 ， 每 
次 交叉 验证 会 训练 6 个 模型 ， 这 些 模 型 被 存储 在 一 个 列表 中 便于 后 续 使 用 。enet path 的 
调用 也 有 一 些 变化 。 一 个 是 eps 参数 被 设置 为 默认 1e-3 的 一 半 ，eps 作为 惩罚 参数 值 ， 可 
以 任意 设置 。 第 4 章 提 到 使 用 坐标 下 降 方 法 通过 减少 惩罚 参数 来 选择 eps。 实 际 上 ，eps 
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参数 告诉 算法 进行 到 什么 程度 停止 。eps 输入 是 惩罚 参数 的 结束 值 除 以 起 始 值 的 比例 。 参 
Žr n_alphas 控制 参数 更 新 步 数 。 注 意 如 果 步 数 太 大 ， 可 能 算法 不 会 收 僵 。 如 果 算 法 收敛 
失败 会 给 出 警告 信息 。 可 以 接着 稍微 调 大 eps， 使 惩罚 参数 不 会 在 每 步 大 幅 下 降 ， 或 者 可 
以 调 大 n_alphas 来 增加 步 长 ， 使 得 每 个 单独 步 长 变 小 。 

另 一 个 注意 事项 是 是 否 绘制 了 曲线 的 完整 内 容 。 图 5-12 展示 了 最 小 值 非常 接近 于 图 
的 右 侧 边缘 。 此 时 要 尽 可 能 地 往外 延 升 曲线 ， 以 确保 最 小 值 被 纳入 视线 范围 。 减 少 eps 会 
继续 向 右 绘 制 曲 线 。 

训练 得 到 的 6 个 模型 用 于 生成 6 个 预测 结果 。 代 码 然 后 检测 6 个 预测 结果 的 哪个 结果 有 
最 大 的 数值 输出 ， 最 终 选择 输出 最 大 的 预测 。 预 测 值 接着 和 实际 值 比较 ， 并 对 错误 进行 累加 。 

图 5-12 展示 了 误 分 类 错误 随 惩罚 参数 减少 的 变化 情况 。 图 示 展 现 了 从 左边 的 最 简单 
模型 开始 ， 向 右 推进 ， 错 误 最 小 值 显著 下 降 。 误 分 类 错误 的 最 小 值 大 约 为 33%。 该 值 要 
好 于 基于 线性 核 的 支持 向 量 机 。 论 文 使 用 非 线性 核 获得 的 误 分 类 错误 约 为 33%， 对 于 某 
些 线性 核 ， 误 分 类 错误 低 至 30%。 在 支持 向 量 机 中 使 用 非 线性 核 约 等 价 于 使 用 基 扩展 ( 正 
如 本 章 前 面 红 酒 品质 预测 的 例子 )。 基 扩展 在 红酒 品质 预测 中 并 不 有 效 ， 但 使 用 非 线性 核 
带 来 的 性 能 提升 预示 着 在 琉璃 分 类 问题 也 可 能 取得 好 的 效果 。 
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5-12 ”对 玻璃 分 类 问题 使 用 惩罚 线性 回归 得 到 的 误 分 类 错误 率 
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本 章 展 示 了 对 预测 建 模 问 题 使 用 惩罚 回归 以 及 一 些 通用 工具 的 案例 ， 以 及 实际 应 用 中 
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经 常会 遇 到 的 几 种 不 同类 型 的 问题 。 这 些 问题 包括 回归 、 二 分 类 以 及 多 类 别 分 类 问题 。 本 
章 使 用 基于 Python 的 不 同 版 本 的 您 神 回 归 函 数 来 解决 这 些 问题 。 此 外 ， 本 章 还 展示 了 几 
种 工具 的 使 用 方法 。 这 些 工 具 包 括 对 类 别 变量 的 编码 ,使 用 二 分 器 来 解决 多 类 别 分 类 问题 ， 
对 线性 方法 进行 扩展 来 预测 属性 及 输出 之 间 的 非 线 性 关系 。 

本 章 还 介绍 了 模型 性 能 评价 方法 。 回 归 问 题 最 容易 评 佑 ， 因 为 它 的 错误 可 以 表示 为 数 
值 。 分 类 问题 也 可 以 概括 进来 。 我 们 看 到 分 类 性 能 可 以 被 量化 为 误 分 类 错误 率 、 接 收 曲线 
的 曲线 下 面积 ， 以 及 经 济 代价 。 应 该 挑选 最 能 反映 实际 目标 的 性 能 指标 ， 这 些 目 标 包括 商 
业 目 标 、 科 学 目标 等 。 
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第 6 章 


集成 方法 





集成 方法 来 源 于 下 述 观 察 ， 如 果 模 型 之 间 近 似 相互 独立 ， 则 多 个 模型 联合 的 性 能 要 优 
于 单个 模型 的 。 如 果 一 个 分 类 器 以 55% 的 概率 可 以 给 出 正确 的 结果 ， 这 样 的 分 类 器 只 能 
说 是 中 等 水 平 ， 但 是 如 果 拥 有 100 个 这 样 的 分 类 器 ， 则 大 多 数 分 类 器 的 结果 都 正确 的 概 
率 可 以 上 升 到 82%。( 在 谷歌 搜索 “累积 二 项 式 概率 分 布 ” 可 以 看 到 详细 的 信息 ， 你 也 可 
以 尝试 其 他 的 概率 值 看 看 会 得 到 什么 样 的 结果 。) 

一 种 获取 近似 相互 独立 的 多 个 模型 的 方法 就 是 使 用 不 同 的 机 器 学 习 算法 。 例 如 ， 可 以 
利用 支持 向 量 机 (SVM), REE, k 最 近邻 、 二 元 决策 树 等 等 。 但 是 这 种 方法 很 难产 
生 大 量 的 模型 ， 而 且 这 个 过 程 见 长 乏味 ， 因 为 不 同 的 模型 有 不 同 参数 ， 需 要 分 别 调 参 ， 而 
且 每 个 模型 对 输入 数据 的 要 求 也 不 同 。 因 此 每 个 模型 需要 分 别 编码 。 这 就 远 远 不 能 适应 于 
需要 成 百 上 千 个 模型 的 场景 (下 面 会 遇 到 ) 。 

因此 ， 集 成 方法 的 关键 是 开发 出 一 种 可 以 生成 大 量 近 似 独立 的 模型 的 方法 ， 然 后 把 

它们 集成 起 来 。 在 本 章 将 学 到 最 流行 的 方法 是 如 何 做 的 ， 并 了 解 最 流行 的 集成 方法 的 工 
作 原 理 。 本 章 概述 算法 的 基本 架构 ， 用 Python 展示 算法 的 有 效 性 ， 以 加 深 对 算法 原理 
的 理解 。 
集成 方法 是 由 两 层 算法 组 成 的 层次 架构 。 底 层 的 算法 叫 作 基 学 习 器 (base 
learner) 。 基 学 习 器 是 单个 机 器 学 习 算 法 ， 这 些 算法 后 续 会 被 集成 到 一 个 集成 方法 中 。 
本 章 主 要 使 用 二 元 决策 树 作为 基 学 习 器 。 上 层 算法 通过 对 这 些 基 学 习 器 做 巧妙 的 处 理 ， 
使 其 模型 近似 相对 独立 。 那 么 同一 算法 如 何 产生 不 同 的 模型 ? 目前 广泛 使 用 的 上 层 算 
法 主要 有 : 投票 (bagging)、 提 升 (boosting) 和 随机 和 森林 (random forests), 。 严 格 地 
讲 ， 随 机 森林 实际 上 是 上 层 算法 和 修改 后 的 二 元 决策 树 的 组 合 ， 在 “随机 森林 ”小 节 
可 以 看 到 详细 的 内 容 。 
有 很 多 算法 都 可 以 用 作 基 学 习 器 ， 如 二 元 决策 树 、 支 持 向 量 机 等 ， 但 从 实用 角度 二 元 
决策 树 的 应 用 最 为 广泛 。 它 们 广泛 应 用 于 开源 和 商业 的 软件 包 中 ， 这 些 软件 包 都 可 以 应 用 
到 项 目 中 。 集 成 方法 包含 成 千 上 万 的 二 元 决策 树 ,集成 方法 的 很 多 特性 都 源 自 二 元 决策 树 。 
所 以 本 章 以 二 元 决策 树 开 始 介绍 。 
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6.1 二 元 决策 树 








二 元 决策 树 就 是 基于 属性 做 一 系列 的 二 元 〈 是 / 否 ) 决策 。 每 次 决策 对 应 于 从 两 种 可 








能 性 中 选择 一 个 。 每 次 决策 后 ， 要 么 引出 另外 一 个 决策 ， 要 么 生成 最 终 的 结果 。 一 个 实 
个 概念 的 理解 。 了 解 了 训练 后 的 决策 树 是 什么 样 的 ， 


际 训练 决策 树 的 例子 有 助 于 加 强 对 这 





就 学 会 了 决策 树 的 训练 过 程 。 

















代码 清单 6-1 为 使 用 Scikitlearn 的 DecisionTreeRegressor 工具 包 针 对 红酒 口感 数据 构 








代码 清单 6-1 构建 一 个 决策 树 预测 红酒 口感 -winTree.py 


, author = 'mike-bowles' 


import urllib2 
import numpy 


from sklearn import tree 


from sklearn.tree import DecisionTreeRegressor 


from sklearn.externals.six import StringIO 


from math import sqrt 


TEU SR, 8 6-1 为 代码 清单 6-1 生成 的 决策 树 。 


import matplotlib.pyplot as plot 


#read data into iterable 


target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 


"databases/wine-quality/winequality-red.csv") 


data - urllib2.urlopen(target url) 





xList = [ 
labels = [] 
names = [ 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip() 
firstLine = False 
else: 


#split on semi-colon 
SOLLE] 


row = line.strip() 


.split(";") 


#Put labels in separate array 


labels.append(float (row[-1])) 


#remove label from row 
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row.pop() 
fconvert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 





nrows = len(xList) 
ncols = len(xList[0]) 
wineTree - DecisionTreeRegressor(max depth-3) 





wineTree.fit(xList, labels) 


with open("wineTree.dot", 'w') as f: 


f = tree.export graphviz(wineTree, out file-f) 








Note: The code abov xports the trained tr info to a 

Graphviz "dot" file. 

Drawing the graph requires installing GraphViz and the running the 
following on the command line 

dot -Tpng wineTree.dot -o wineTree.png 


In Windows, you can also open the .dot file in the GraphViz 








gui (GVedit.exe)] 


图 6-1 为 针对 红酒 数据 的 训练 结果 ， 即 一 系列 的 决策 。 决 策 树 框 图 显示 了 一 系列 的 方 
框 ， 这 些 方 框 称 作 节 点 (nodes)。 有 两 类 节点 ， 一 种 针对 问题 输出 “是 ”或 者 “ 否 "， 另 
外 一 种 是 终止 节点 ， 输 出 针对 样本 的 预测 结果 ， 并 终止 整个 决策 的 过 程 。 终 止 节 点 也 叫 作 
叶子 节点 (leaf), TEE 6-1 中 ， 终 止 节 点 处 在 框图 底部 ， 它 们 下 面 没有 分 支 或 者 进一步 的 
决策 节点 。 


6.1.1 如 何 利用 二 元 决策 树 进行 预测 

当 一 个 观察 (或 一 行 数据 ) 被 传送 到 一 个 非 终 止 节点 时 ,此 行 数据 要 回答 此 节点 的 问题 。 
如 果 回 答 “ 是 ”， 则 该 行 数据 进入 节点 下 面 的 左 侧 节 点 。 如 果 回 答 ” 否 “， 则 此 行 数据 进 
入 节点 下 面 的 右 侧 节 点 。 该 过 程 持续 进行 ， 直 到 到 达 一 个 终止 节点 ( 即 叶 子 节点 ) , 叶子 
节点 给 该 行 数据 分 配 预测 值 。 叶 子 节点 分 配 的 预测 值 是 所 有 到 达 此 节点 的 训练 数据 结果 的 
均值 。 

尽管 此 决策 树 的 第 二 个 决策 层 在 两 个 分 支 中 都 考虑 了 变量 X[9], 这 两 个 决策 也 可 以 是 
针对 不 同属 性 所 做 的 判断 (可 以 参看 第 三 个 决策 层 的 例子 )。 
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最 上 面 的 节点 又 叫 根 节 点 (root node)。 这 个 节点 提出 的 问题 是 “X[10]<=10.525"。 在 
二 元 决策 树 中 ， 越 是 重要 的 变量 越 早 用 来 分 割 数据 ( 越 接近 决策 树 的 项 端 )， 因 此 决策 树 认 
为 变量 X[10], 也 就 是 酒精 含量 属性 很 重要 。 这 点 决策 树 与 第 5 章 的 惩罚 线性 回归 是 一 致 的 。 
第 5 章 “ 用 每 罚 线性 方法 构建 预测 模型 ”也 认为 酒精 含量 是 决定 红酒 口感 最 重要 的 属性 。 

图 6-1 所 示 决 策 树 的 深度 为 3。 决 策 树 的 深度 定义 为 从 上 到 下 遍历 树 的 最 长 路 径 (所 
经 过 的 决策 的 数目 )。 在 “决策 树 的 训练 等 价 于 分 割 点 的 选择 ”小 节 的 关于 训练 的 讨论 中 ， 
可 以 看 到 没有 理由 要 求 到 达 终 止 节点 的 所 有 路 径 具 有 相同 的 长 度 〈 见 图 6-1)。 

现在 已 经 知道 一 个 训练 好 的 决策 树 是 什么 样 的 ， 也 看 到 了 如 何 使 用 一 个 决策 树 来 进行 
预测 。 下 面 介绍 如 何 训 练 决策 树 。 


6.1.2 如何 训练 一 个 二 元 决策 树 

了 解 如 何 训练 决策 树 最 简单 的 方法 就 是 通过 一 个 具体 的 例子 。 代 码 清单 6-2 为 给 定 一 个 
实数 属性 如 何 预测 一 个 实数 标签 的 例子 。 数 据 集 在 代码 中 产生 (也 叫 作 合成 数据 )。 生 成 过 程 
是 把 -0.5 ~ +0.5 等 分 成 100 份 ,单一 实数 属性 x 就 是 这 些 等 分 数 。 标 签 y 等 于 x 加 上 随机 噪声 。 


















































代码 清单 6-2 ”简单 回归 问题 的 决策 树 训练 -simpleTree.py 


, author = 'mike-bowles' 


import numpy 

import matplotlib.pyplot as plot 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 


from sklearn.externals.six import StringIO 


#Build a simple data set with y = x + random 
nPoints - 100 


#x values for plotting 


xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)] 


#x needs to be list of lists. 


x = [[s] for s in xPlot] 


#y (labels) has random noise added to x-value 
#set seed 


numpy.random.seed(1) 
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y = [s + numpy.random.normal(scale=0.1) for s in xPlot] 


plot.plot (xPlot,y) 
plot.axis('tight') 
plot.xlabel('x') 
plot.ylabel('y') 
plot.show() 


simpleTree = DecisionTreeRegressor(max depth-1) 





simpleTree.fit(x, y) 
fdraw the tree 
with open("simpleTree.dot", 'w') as f: 
f = tree.export graphviz(simpleTree, out file-f) 


#compare prediction from tree with true values 


yHat = simpleTree.predict (x) 





plot.figure() 

plot.plot(xPlot, y, label='True y') 

plot.plot(xPlot, yHat, label='Tree Prediction ', linestyle-'--') 
plot.legend(bbox to anchor-(1,0.2)) 

plot.axis('tight') 

plot.xlabel('x') 

plot.ylabel('y') 








plot.show() 


simpleTree2 - DecisionTreeRegressor (max depth-2) 





simpleTree2.fit(x, y) 
fdraw the tree 
with open("simpleTree2.dot", 'w') as f: 
f = tree.export graphviz(simpleTree2, out file-f) 


#compare prediction from tree with true values 


yHat = simpleTree2.predict (x) 





plot.figure() 
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plot.plot(xPlot, y, label='True y') 

plot.plot(xPlot, yHat, label='Tree Prediction ', linestyle-'--') 
plot.legend(bbox to anchor-(1,0.2)) 

plot.axis('tight') 

plot.xlabel('x') 

plot.ylabel('y') 








plot.show() 


#split point calculations - try every possible split point to 
#find the best one 
sse = [] 
xMin = [] 
for i in range(1, len(xPlot)): 
#divide list into points on left and right of split point 
lhList = list(xPlot[0:i]l) 
rhList - list(xPlot[i:len(xPlot)]) 





#calculate averages on each side 
lhAvg = sum(lhList) / len(lhList) 
rhAvg = sum(rhList) / len(rhList) 











fcalculate sum square error on left, right and total 
lhSse = sum([(s - lhAvg) * (s - lhAvg) for s in lhList]) 





rhSse = sum([(s - rhAvg) * (s - rhAvg) for s in rhList]) 


#add sum of left and right to list of errors 


sse.append(lhSse + rhSse) 
xMin.append (max (1hList)) 


plot.plot(range(1, len(xPlot)), sse) 
plot.xlabel('Split Point Index') 





plot.ylabel('Sum Squared Error") 


plot.show() 
minSse - min(sse) 
idxMin = sse.index (minSse) 


print (xMin[idxMin]) 


#what happens if the depth is really high? 
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simpleTree6 = DecisionTreeRegressor (max depth-6) 





simpleTree6.fit(x, y) 
#too many nodes to draw the tree 
#with open("simpleTree2.dot", 'w') as f: 


# f = tree.export graphviz(simpleTree6, out file-f) 


#compare prediction from tree with true values 























yHat = simpleTree6.predict (x) 

plot.figure() 

plot.plot(xPlot, y, label='True y') 

plot.plot(xPlot, yHat, label='Tree Prediction ', linestyle='-') 
plot.legend(bbox to anchor-(1,0.2)) 

plot.axis('tight') 

plot.xlabel('x') 

plot.ylabel('y') 

plot.show() 

图 6-2 为 属性 x 和 标签 y 的 关系 图 。 正 如 预期 , y 值 大致 上 一 直 跟 随 x 值 变化 ， 但 是 


有 些 随 机 的 小 扰动 。 





0.4 








图 6-2 标签 与 属性 的 关系 区 
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6.1.3 决策 树 的 训练 等 同 于 分 割 点 的 选择 
代码 清单 6-2 的 第 一 步 是 运行 scikitlearn 的 regression tree 包 , 并 指定 决策 树 的 深度 为 1。 
此 处 理 过 程 的 结果 如 图 6-3 所 示 。 图 6-3 为 深度 为 1 的 决策 树 的 框图 。 深 度 为 1 的 树 又 叫 
VETE (stumps)。 在 根 节 点 的 决策 就 是 将 属性 值 与 -0.075 比较 。 这 个 值 叫 作 分 割 点 (split 
point) ， 因 为 它 把 数据 分 割 成 两 部 分 。 由 根 节点 发 散 出 去 的 两 个 方 框 可 知 ，101 个 实例 中 
有 43 个 到 了 根 节点 的 左 分 支 ， 剩 下 的 58 个 实例 到 了 根 节点 的 右 分 支 。 如 果 属 性 值 小 于 
分 割 点 ， 则 此 决策 树 的 预测 值 就 是 方 框 里 指明 的 值 ， 大 约 就 是 -0.302。 
X[0] <= -0.0750 


mse - 9.87720441723 
samples = 101 









































mse - 1.0025 mse - 1.7650 
samples - 43 samples - 58 
value = [-0.30258266] value = [0.23400293] 








图 6-3 一 个 简单 问题 的 解 ， 深 度 为 1 的 决策 树 的 框图 
分 割 点 的 选择 如 何 影响 预测 效果 

审视 决策 树 的 另 一 个 方法 就 是 将 预测 值 与 真实 的 标签 值 进行 对 比 。 这 个 简单 的 合成 数 
据 只 有 一 个 属性 ， 由 决策 树 产生 的 预测 值 一 直 跟 随 着 实际 的 标签 值 ， 从 中 也 能 看 出 这 个 
简单 的 决策 树 的 训练 是 如 何 完 成 的 。 如 图 6-4 所 示 , 预测 的 值 是 基于 一 个 简单 的 判断 方法 。 
预测 值 实际 上 是 属性 值 的 阶梯 函数 。 这 个 “阶梯 ”就 发 生 在 分 割 点 。 


















































- Tree Prediction || 

















6-4 预测 值 与 实际 值 的 比较 
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分 割 点 选择 算法 

这 个 简单 的 决策 树 需要 确定 3 个 变量 : 分 割 点 的 值 、 分 割 后 生成 的 两 组 数据 的 预测 值 。 
决策 树 的 训练 过 程 就 是 要 完成 这 个 任务 。 下 面 介绍 上 述 目 标 如 何 达 到 。 训 练 此 决策 树 的 
目标 是 使 预测 值 的 误差 平方 最 小 。 首 移 假设 分 割 点 已 经 确认 。 一 旦 给 定 分 割 点 ， 分 配给 
两 个 组 的 预测 值 就 可 以 确定 下 来 。 分 配 的 值 就 是 使 均 方 误差 最 小 的 那个 值 。 那 么 剩 下 的 
问题 就 是 如 何 确定 分 割 点 的 值 。 代 码 清 单 6-2 有 一 小 段 代码 用 来 确定 分 割 点 。 这 个 过 程 是 
尝试 每 一 个 可 能 的 分 割 点 ， 然 后 把 数据 分 成 2 组 ， 取 每 组 数值 的 均值 作为 分 配 的 预测 值 ， 
然后 计算 相应 的 误差 平方 和 。 

图 6-5 展示 了 误差 平方 和 作为 分 割 点 的 函数 是 如 何 变 化 的 。 大 概 在 数据 的 中 心 ， 可 以 
明确 地 取 到 最 小 的 误差 平方 。 训 练 一 个 决策 树 需要 穷尽 地 搜索 所 有 可 能 的 分 割 点 来 确定 哪 
个 值 可 以 使 误差 平方 和 最 小 化 。 这 是 这 个 简单 的 例子 需要 注意 的 地 方 。 
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6-5 每 个 可 能 的 分 割 点 对 应 的 误差 平方 和 








变量 决策 树 的 训练 - 选择 哪个 属性 进行 分 割 

TUR IIBER Ze PETS AN? 算法 会 对 所 有 的 属性 检查 所 有 可 能 的 分 割 点 ， 对 每 
个 属性 找到 误差 平方 和 最 小 的 分 割 点 ， 然 后 找到 哪个 属性 对 应 的 误差 平方 和 最 小 。 

在 训练 决策 树 的 过 程 中 ， 每 个 计算 周期 都 要 对 分 割 点 进行 计算 。 同 样 地 ， 训 练 基 
于 决策 树 的 集成 算法 时 ， 每 个 周期 也 要 对 分 割 点 进行 计算 。 如 果 属 性 没有 重复 值 ， 每 
个 数据 点 对 应 的 属性 值 都 要 作为 分 割 点 进行 测试 ( 则 分 割 点 的 测试 次 数 等 于 数据 点 数 
目 减 1)。 
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随 着 数据 规模 的 增 大 , 分 割 点 的 计算 量 也 成 比例 增加 。 测 试 的 分 割 点 彼此 可 能 非常 近 。 
因此 设计 针对 大 规模 数据 的 算法 时 ， 分 割 点 的 检测 通常 要 比 原始 数据 的 粒度 粗糙 得 多 。 论 
文 “PLANET:Massively Parallel Learning of Tree Ensembles with MapReduce ”提出 一 种 方法 ， 
是 谷歌 工程 师 针 对 大 规模 数据 集 构 建 决策 树 时 采用 的 方法 ， 他 们 使 用 决策 树 来 实现 梯度 提 
JF (gradient boosting) 算法 (本章 将 会 学 到 该 集成 方法 )。 
通过 递归 分 割 获得 更 深 的 决策 树 

代码 清单 6-2 展示 了 当 决策 树 深度 从 1 增加 到 2 时 ， 预 测 曲 线 会 发 生 什么 变化 。 巴 
测 曲线 如 图 6-6 所 示 。 决 策 树 的 框图 如 图 6-7 所 示 。 深 度 为 1 的 决策 树 只 有 一 步 ， 这 个 
预测 曲线 有 3 步 。 第 2 决策 层 分 割 点 的 确定 与 第 1 个 分 割 点 的 方法 完全 一 样 。 决 策 树 的 
每 个 节点 处 理 基于 上 个 分 割 点 生成 的 数据 子 集 。 每 个 节点 中 分 割 点 的 选择 是 使 下 面 2 个 
节点 的 误差 平方 和 最 小 。 图 6-6 的 曲线 非常 接近 一 个 实际 的 阶梯 函数 曲线 。 决 策 树 深度 
的 增加 意味 着 更 细小 的 步 长 、 更 高 的 保 真 度 ( 准 确 性 )。 但 是 如 果 这 个 过 程 无 限 地 继续 
下 去 会 怎样 ? 






























































6-6 深度 为 2 的 决策 树 的 预测 
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随 着 分 割 的 继续 ， 决 策 树 深 度 增 加 ， 最 深 节点 包含 的 数据 (实例 数 ) 会 减少 。 这 
将 导致 在 达到 特定 的 深度 之 前 ， 这 种 分 割 就 终止 了 。 如 果 决 策 树 的 节点 只 有 一 个 数 
据 实例 ， 就 不 需要 分 割 了 。 决 策 树 训练 算法 通常 有 一 个 参数 来 控制 节点 包含 的 数据 
实例 最 小 到 什么 规模 就 不 再 分 割 。 节 点 包含 的 数据 实例 太 少 会 导致 预测 结果 发 生 剧 
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X[0] <= -0.0750 
mse = 9.87720441723 
Samples = 101 
X[0] <= -0.2950 X[0] <= 0.2650 
mse = 1.00250144518 mse = 1.76497349706 





Samples = 43 


Samples = 58 


mse = 0.2974 mse = 0.1588 mse = 0.5126 mse = 0.1315 
Samples = 21 Samples = 22 Samples = 34 Samples = 24 
value = [-0.41794244] value = [-0.1924665] value = [0.11720893] value = [0.39946109] 








6-7 REA 2 的 决策 树 的 框图 














6.1.4 二 元 决策 树 的 过 拟 合 

上 节 介 绍 了 如 何 训练 任意 深度 的 二 元 决策 树 。 那 么 有 没有 可 能 过 拟 合 一 个 二 元 决策 
树 ” 本 节 介绍 如 何 度量 和 控制 二 元 决策 树 的 过 拟 合 。 二 元 决策 树 的 过 拟 合 原因 与 第 4 章 和 
第 5 章 的 有 所 不 同 。 但 是 过 拟 合 的 表现 以 及 如 何 度量 过 拟 合 过 程 还 是 比较 相似 的 。 二 元 决 
策 树 的 参数 ( 树 的 深度 、 最 小 叶 节 点 规模 等 等 ) 可 以 用 来 控制 模型 的 复杂 度 ， 类 似 过 程 已 
经 在 第 4 章 和 第 5 章 看 到 。 


二 元 决策 树 过 拟 合 的 度量 

图 6-8 展示 了 决策 树 的 深度 增加 到 6 会 发 生 什么 。 在 图 6-8 中 ， 很 难看 出 真实 值 与 预 
测 值 之 间 的 差别 。 预 测 值 几 乎 完全 跟随 每 一 个 观察 值 的 变化 。 这 就 开始 上 暗示 此 模型 已 经 过 
拟 合 了 。 数 据 产 生 方式 表明 最 佳 预测 就 是 让 预测 值 等 于 对 应 的 属性 值 。 添 加 到 属性 上 的 噪 
音 是 不 可 预测 的 ， 然 而 过 拟 合 的 预测 结果 是 实际 值 加 上 噪声 产生 的 偏差 。 合 成 数据 的 好 处 
就 是 可 以 事先 知道 正确 答案 。 

另外 一 个 检查 过 拟 合 的 方法 是 比较 决策 树 中 终止 节点 的 数目 与 数据 的 规模 。 生 成 图 6-8 
所 示 的 预测 曲线 的 决策 树 的 深度 是 6。 这 意味 着 它 有 64 个 终止 节点 〈2^6)。 数 据 集 中 共 
有 100 个 数据 点 。 这 意味 着 大 量 的 数据 单独 占据 一 个 终止 节点 ， 因 此 它们 的 预测 值 与 观 
察 值 完全 匹配 。 这 就 不 奇怪 预测 曲线 完全 跟随 着 噪声 的 “ 扭 动 ”。 
权衡 二 元 决策 树 复杂 度 以 获得 最 佳 性 能 

在 实际 问题 中 ， 使 用 交叉 验证 (cross-validation) 来 控制 过 拟 合 。 代 码 清单 6-3 展示 了 
针对 此 问题 使 用 不 同 深度 的 决策 树 运 行 10 折 交 叉 验 证 。 代 码 显 示 了 2 层 循环 ， 外 层 循环 定 
义 了 内 层 交 叉 验 证 的 决策 树 深度 ， 内 层 循环 将 数据 分 割 为 训练 数据 和 测试 数据 后 计算 10 轮 
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测试 误差 。 不 同 深 度 的 决策 树 对 应 的 均 方 误 差 (MSE, mean squared error) 如 图 6-9 所 示 。 
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图 6-8 深度 为 6 的 决策 树 的 预测 曲线 


代码 清单 6-3 不同 深度 决策 树 的 交叉 验证 -simpleTreeCV.py 


, author = 'mike-bowles' 


import numpy 

import matplotlib.pyplot as plot 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 


from sklearn.externals.six import StringIO 


fBuild a simple data set with y = x + random 
nPoints - 100 


#x values for plotting 


xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)] 


#x needs to be list of lists. 


x = [[s] for s in xPlot] 


fy (labels) has random noise added to x-value 


#set seed 
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numpy. random. seed (1) 


y = [s + numpy.random.normal(scale=0.1) for s in xPlot] 


nrow = len (x) 


#fit trees with several different values for depth and use 


#x-validation to see which works best. 


depthList = [1, 2, 3, 4, 5, 6, 7] 
xvalMSE = [] 





nxval = 10 


for iDepth in depthList: 


#build cross-validation loop to fit tr and evaluate on 





#out of sample data 


for ixval in range(nxval): 


#Define test and training index sets 


idxTest = [a for a in range(nrow) if a%snxval == ixval$nxval] 





idxTrain = [a for a in range(nrow) if a$nxval != ixval$nxval] 


#Define test and training attribute and label sets 








xTrain = [x[r] for r in idxTrain] 
xTest = [x[r] for r in idxTest] 
yTrain = [y[r] for r in idxTrain] 
yTest = [y[r] for r in idxTest] 





train tree of appropriate depth and accumulate 
out of sample (oos) errors 
treeModel = DecisionTreeRegressor (max depth-iDepth) 


treeModel.fit(xTrain, yTrain) 








treePrediction = treeModel.predict (xTest) 
error = [yTest[r] - treePrediction[r] \ 


for r in range(len(yTest))] 


faccumulate squared errors 


if ixval == 0: 
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oosErrors = sum([e * for in error]) 
else: 


#accumulate predictions 








oosErrors += sum([e * for in error]) 








faverage the squared errors and accumulate by tree depth 





mse = oosErrors/nrow 





xvalMSE.append (mse) 


plot.plot(depthList, xvalMSE 





plot.axis('tight') 
plot.xlabel('Tree Depth') 





plot.ylabel('Mean Squared Error') 
plot.show() 
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6-9 简单 问题 的 测试 数据 均 方 误差 与 决策 树 深度 的 关系 











决策 树 的 深度 控制 二 元 决策 树 模型 的 复杂 度 。 它 的 效果 类 似 于 第 4 章 和 第 5 章 中 惩罚 
回归 模型 的 人 惩罚 系数 项 。 决 策 树 深度 的 增加 意味 着 在 付出 额外 的 复杂 度 的 基础 上 ， 可 以 
从 数据 中 提取 出 更 复杂 的 行为 。 图 6-9 说 明 决 策 树 深 度 为 3 时 ,可 以 获得 基于 代码 清单 6-2 
生成 的 数据 的 最 佳 均 方 误差 (MSE)。 此 决策 树 深度 体现 了 重 现 属性 与 标签 的 内 在 关系 和 
过 拟 合 风险 之 间 的 最 佳 权衡 。 

回顾 第 3 章 ， 最 佳 模 型 的 复杂 度 是 数据 集 规模 的 函数 。 合 成 数据 问题 提供 了 观察 这 个 
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关系 是 如 何 起 作用 的 机 会 。 当 数据 点 增加 到 1000 时 ， 最 佳 模型 复杂 度 和 性 能 发 生 的 变化 
如 图 6-10 所 示 。 
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6-10 1000 个 数据 点 时 ， 测 试 数据 均 方 误差 与 决策 树 深度 关系 


可 以 修改 代码 清单 6-3 中 的 变量 nPoints 为 1000, 然后 运行 代码 。 增 加 数据 时 ， 会 发 
生 两 件 事 情 : 第 一 件 事 是 最 佳 决 策 树 深度 会 从 3 增加 到 4。 增 加 的 数据 支持 更 复杂 的 模型 。 
另外 一 件 事 是 均 方 误差 有 轻微 的 下 降 。 增 加 的 决策 树 深 度 允 许 在 逼近 真实 模型 时 提供 更 精 
细 的 “人 台阶"， 面 向 真实 的 大 规模 数据 场景 也 可 以 提供 更 好 的 保 真 度 。 


6.1.5 “针对 分 类 问题 和 类 别 特 征 所 做 的 修改 

为 了 提供 关于 决策 树 是 如 何 训练 的 完整 场景 ， 还 有 一 些 细节 问题 需要 讨论 。 一 个 问题 
就 是 : 如 何 应 用 决策 树 解决 分 类 问题 7 上 述 判 断 分 割 点 的 均 方 误差 只 对 回归 问题 有 意义 。 
正如 你 在 本 书 其 他 部 分 看 到 的 ,分 类 问题 与 回归 问题 有 不 同 的 评价 标准 。 分 类 问题 在 判断 
分 割 点 时 可 以 使 用 多 个 评价 标准 来 代替 均 方 误差 。 一 个 是 很 熟悉 的 misclassification error 
( 误 分 类 错误 )。 另 外 两 个 比较 通用 的 是 基尼 不 纯 性 度量 (Gini impurity measure) 和 信 
息 增 益 (information gain)。 详 细 内 容 可 以 参考 http://en.wikipedia.org/wiki/Decision tree - 
learning#Gini_impurity。 这 两 个 度量 指标 与 误 分 类 错误 些 不 同 特性 ， 但 在 概念 上 没有 
差别 。 

最 后 一 个 部 分 是 当 属 性 是 类 别 属性 而 非 数 值 属性 时 ， 如 何 训练 决策 树 。 决 策 树 中 的 非 
终止 节点 提出 一 个 yesmo 的 问题 。 对 应 数值 属性 ， 问 题 是 判断 属性 是 否 小 于 某 一 值 的 这 
种 形式 。 把 一 个 类 别 属性 (变量) 分 割 成 两 个 子 集 需 要 尝试 所 有 分 成 2 个 子 集 的 可 能 性 。 
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假设 一 个 类 别 属性 包含 A、B、C 三 类 ， 可 能 的 分 割 方式 是 : A 在 一 个 子 集 ，B、C 在 另外 
一 个 子 集 ,或 者 B 在 一 个 子 集 ，A、C 在 另外 一 个 子 集 ， 诸 如 此 类 。 在 某 些 环境 下 ， 可 以 
直接 使 用 相关 数学 结果 简化 这 个 过 程 。 

本 节 了 提供 二 元 决策 树 的 背景 知识 ， 二 元 决策 树 本 身 就 是 一 个 很 好 的 预测 工具 ， 值 得 
深入 研究 。 但 是 这 里 提出 的 目的 是 将 其 作为 集成 方法 的 背景 。 集 成 方法 包含 了 大 量 的 二 元 
决策 树 。 在 当成 千 上 万 个 决策 树 组 合 到 一 起 时 ， 使 用 单个 决策 树 时 出 现 的 问题 (如 需要 调 
整 多 个 参数 、 结 果 的 不 稳定 性 、 决 策 树 深度 加 深 导 致 的 过 拟 合 等 ) 就 会 减弱 。 这 也 是 提出 
集成 方法 的 原因 ,集成 方法 更 加 和 鲁 棒 、 易 于 训练 .更 加 准确 。 下 面 讨论 三 个 主流 的 集成 方法 。 















































6.2 自 举 集成 : Bagging 算法 


自 举 集成 (bootstrap aggregation Ell Bagging 算法 ) 是 由 Leo Breiman 提出 的 。 该 方法 
是 从 选取 一 个 基 学 习 器 开始 的 ， 本 书 使 用 二 元 决策 树 作为 基 学 习 器 。 随 着 对 此 方法 介绍 
的 深入 ,可 以 看 到 其 他 机 器 学 习 算 法 也 可 以 作为 基 学 习 器 。 二 元 决策 树 是 合乎 逻辑 地 选择 ， 
因为 它 可 以 对 具有 复杂 决策 边界 的 问题 建 模 ， 但 二 元 决策 树 性 能 表现 很 不 稳定 。 这 种 不 稳 
定性 可 以 通过 组 合 多 个 基于 决策 树 的 模型 来 克服 。 









































6.2.1 Bagging 算法 是 如 何 工 作 的 

自 举 集成 算法 使 用 叫 作 自 举 (bootstrap) 的 取样 方法 。 自 举 取样 通常 用 来 从 一 个 中 等 
规模 的 数据 集中 产生 取样 统计 。 一 个 〈 非 参 ) 自 举 取样 是 从 数据 集 放 回 式 地 随机 选择 元 
素 (也 就 是 说 ， 自 举 取样 可 能 会 重复 取出 原始 数据 中 的 同一 行 数据 )。 自 举 集成 从 训练 数 
据 集 中 获得 一 系列 的 自 举 样本 ,然后 针对 每 一 个 自 举 样本 训练 一 个 基 学 习 器 。 对 于 回归 问 
题 ， 结 果 为 基 学 习 器 的 均值 。 对 于 分 类 问题 ， 结 果 是 从 不 同类 别 所 占 的 百分比 引申 出 来 
的 各 种 类 别 的 概率 或 均值 。 代 码 清单 6-4 展示 了 对 本 章 开始 介绍 的 合成 数据 问题 如 何 应 用 
Bagging 算法 。 

代码 预 留 30% 的 数据 作为 测试 数据 ， 以 代替 交叉 验证 方法 。 参 数 numTreesMax 决定 
集成 方法 包含 的 决策 树 的 最 大 数目 。 代 码 建立 模型 是 从 第 一 个 决策 树 开 始 ， 然 后 是 前 两 个 
决策 树 、 前 三 个 决策 树 ， 以 此 类 推 ， 直 到 numTreesMax 个 决策 树 ， 可 以 看 到 预测 的 准确 
性 与 决策 树 数目 之 间 的 关系 。 代 码 将 训练 好 的 模型 存 人 一 个 列表 ,并且 存 储 了 测试 数据 的 
预测 值 ， 这 些 预测 值 用 于 评估 测试 误差 。 代 码 画 了 两 个 图 ， 一 个 展示 了 当 集 成 方法 增加 决 
策 树 时 ， 均 方 误差 是 如 何 变化 的 。 另 外 一 个 图 展示 了 第 一 个 决策 树 的 预测 值 、 前 10 个 决 
策 树 的 平均 预测 值 和 前 20 个 决策 树 的 平均 预测 值 的 对 比 图 。 这 个 对 比分 析 图 与 预测 值 曲 
线 和 实际 标签 值 的 对 比 图 十 分 相似 。 
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代码 清单 6-4 自 举 集成 算法 -simpleBagging.py 


, author = 'mike-bowles' 


import numpy 

import matplotlib.pyplot as plot 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 
from math import floor 


import random 


#Build a simple data set with y = x + random 
nPoints = 1000 


#x values for plotting 


xPlot = [ (float (i) /float(nPoints) - 0.5) for i in range(nPoints + 1)] 


#x needs to be list of lists. 


x = [[s] for s in xPlot] 


#y (labels) has random noise added to x-value 
#set seed 
random.seed(1) 


y = [s + random.normal(scale-0.1) for s in xPlot] 





#take fixed test set 30% of sample 
nSample = int(nPoints * 0.30) 





idxTest = random.sample(range(nPoints), nSample) 
idxTest.sort() 
idxTrain = [idx for idx in range(nPoints) if not(idx in idxTest)] 





#Define test and training attribute and label sets 
xTrain = [x[r] for r in idxTrain] 

xTest = [x[r] for r in idxTest] 

yTrain = [y[r] for r in idxTrain] 

yTest = [y[r] for r in idxTest] 








#train a series of models on random subsets of the training data 


fcollect the models in a list and check error of composite as list grows 
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#maximum number of models to generate 


numTreesMax = 20 


#tree depth - typically at the high end 
treeDepth = 1 


#initialize a list to hold models 
modelList = [] 
predList = [] 


#number of samples to draw for stochastic bagging 


nBagSamples = int(len(xTrain) * 0.5) 


for iTrees in range (numTreesMax): 
idxBag = random.sample(range(len(xTrain)), nBagSamples) 


xTrainBag = [xTrain[i] for i in idxBag] 











yTrainBag = [yTrain[i] for i in idxBag] 


modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 





modelList[-1].fit(xTrainBag, yTrainBag) 


#make prediction with latest model and add to list of predictions 
latestPrediction = modelList[-1].predict (xTest) 
predList.append(list(latestPrediction)) 


#build cumulative prediction from first "n" models 
mse = [] 
allPredictions = [] 


for iModels in range(len(modelList)): 


faverage first "iModels" of the predictions 
prediction = [] 
for iPred in range(len(xTest)): 
prediction.append(sum([predList[i][iPred] \ 
for i in range(iModels + 1)])/(iModels + 1)) 





allPredictions.append(prediction) 


rrors = [(yTest[i] - prediction[i]) for i in range(len(yTest))] 





mse.append(sum([e * for in errors]) / len(yTest)) 
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nModels = [i + 1 for i in range (len (modelList))] 


LDULTTVT 
O O O O O O 








plot 
for 


.plot (nModels,mse) 
.axis('tight') 





.xlabel('Number of Models in Ensemble') 





.ylabel('Mean Squared Error') 
.ylim((0.0, max(mse) ) ) 


.Show () 


List = [0, 9, 19] 

iPlot in plotList: 

plot.plot(xTest, allPredictions[iPlot]) 
.plot(xTest, yTest, linestyle-"--") 











plot 

plot.axis('tight') 
plot.xlabel('x value') 
plot.ylabel ('Predictions') 
plot.show() 

图 6- 


11 展示 了 当 决 策 树 数目 增加 时 均 方 误差 是 如 何 变化 的 。 误 差 在 0.025 左右 稳定 下 





来 。 这 个 结果 并 不 好 。 添 加 的 噪声 标准 差 为 0.1。 一 个 预测 算法 的 最 佳 均 方 误差 应 该 是 这 
个 标准 差 的 平方 ， 也 就 是 0.01。 本 章 前 面 的 单个 二 进 制 决 策 树 就 已 经 接近 0.01 了 。 为 什 
么 复杂 的 算法 性 能 反倒 下 降 ? 











0.030 


0.025 
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6-11 在 Bagging 集成 方法 中 均 方 误 差 与 决策 树 数目 关系 图 
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Bagging 的 性 能 - 偏差 与 方差 bias vs.variance) 


仔细 观察 图 6-12 会 对 这 个 问题 提供 些 启 示 , 其 中 有 一 个 重要 的 关键 点 需要 明确 指出 ， 














这 个 关键 点 与 其 他 问题 也 有 关系 。 图 6-12 展示 了 单个 决策 树 的 预测 结果 、10 个 决策 树 





的 预测 结果 、20 个 决策 树 的 预测 结果 。 单 个 决策 树 的 预测 值 很 容易 看 清楚 ， 因 为 只 有 





一 个 “台阶 "。10 个 决策 树 和 20 个 决策 树 的 预测 实际 上 县 加 了 一 系列 稍 有 不 同 的 决策 
树 , 因 此 它们 实际 上 是 在 单个 决策 树 那个 单一 台阶 的 附近 增加 了 一 系列 更 精细 的 “台阶 。 
多 个 决策 树 的 台阶 并 不 都 在 同一 个 点 上 ， 因 为 它们 是 基于 不 同 的 取样 数据 进行 训练 的 ， 
导致 了 分 割 点 有 一 定 的 随机 性 。 但 随机 性 只 会 在 分 割 点 附近 的 小 范围 内 带 来 轻微 扰动 。 
因此 ， 结 果 看 起 来 变化 并 不 大 ， 因 为 所 有 的 决策 树 对 于 应 该 在 哪里 进行 分 割 是 有 大 概 共 











识 的 。 
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图 6-12 作为 属性 函数 的 实际 标签 值 与 预测 值 的 关系 图 














这 里 存在 两 种 误差 : 偏差 和 方差 。 考 虑 用 一 条 直线 来 拟 合 一 个 摆动 的 曲线 。 增 加 数据 
规模 可 以 减少 噪声 对 拟 合 数据 的 影响 ， 但 是 再 多 的 数据 也 不 可 能 让 直线 完全 匹配 一 个 摆 
动 的 曲线 。 当 更 多 的 数据 点 加 入 时 ， 并 不 能 减少 的 误差 叫 作 偏差 (bias errors)。 用 深度 为 


1 的 决策 树 对 合成 数据 拟 合 就 会 有 偏差 。 所 





数据 的 预测 会 影响 模型 的 准确 率 。 

















的 分 割 点 都 选 在 数据 中 心 附 近 ， 因 此 对 边缘 





深度 为 1 的 决策 树 的 偏差 来 自 于 模型 太 简 单 了 。Bagging 方法 减少 了 模型 之 间 的 方差 。 

















树 的 深度 。 


但 是 对 深度 为 1 的 决策 树 的 偏差 错误 则 是 平均 不 掉 的 。 克 服 这 个 问题 的 方法 就 是 增加 决策 





对 应 集成 方法 采用 深度 为 5 的 决策 树 时 ， 均 方 误差 与 决策 树 数 目的 关系 图 如 图 6-13 
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所 示 。 当 采用 深度 为 5 的 决策 树 时 ， 均 方 误 差 稍微 小 于 0.01 (可 能 是 由 于 噪声 数据 的 随 
机 性 )， 明 显 性 能 要 好 于 深度 为 1 的 决策 树 。 
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集成 方法 中 使 用 的 模型 的 数目 























图 6-13 采用 深度 为 5 的 决策 树 ， 均 方 误差 与 决策 树 数目 之 间 的 关系 




















使 用 1 个 决策 树 、10 个 决策 树 、20 个 决策 树 的 预测 结果 如 图 6-14 所 示 。 单 个 决策 树 的 
预测 结果 明显 比 其 他 的 突出 ， 因 为 它 有 几 个 尖锐 的 突出 ， 这 导致 了 严重 的 误差 。 换 句 话 说 ， 
单个 决策 树 有 高 的 方差 。 其 他 单个 的 决策 树 训 无 疑问 具有 相似 的 性 能 。 但 是 当 它 们 被 平均 
时 〈 采 用 集成 方法 )， 方 差 减 少 了 ; 基于 Bagging 算法 的 预测 曲线 更 光滑 ， 更 接近 于 真实 值 。 
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6-14 ”采用 深度 为 5 的 决策 树 ,预测 值 与 真实 值 ( 标签 ) 的 关系 
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Bagging 算法 如 何 解决 多 变量 问题 


与 
数 


Ay 





mi 


, 


代码 清单 6-5 


展示 了 Bagging 算法 如 何 解 决 预 测 红酒 口感 问题 。 红 酒 口感 例子 展示 了 


成 数据 问题 一 致 的 处 理 原则 ， 如 图 6-15 一 图 6-17 所 示 。 这 些 图 是 通过 设置 不 同 的 参 





运行 代码 清单 6-5 获得 的 。 


代码 清单 6-5 


__author . 


import urll 
import nump 
from sklear 
from sklear 


import rand 


用 Bagging 算法 预测 红酒 口感 -wineBagging.py 


= 'mike-bowles' 


ib2 

Y 

n import tree 

n.tree import DecisionTreeRegressor 


om 


from math import sqrt 


import matp 


fread data 
target url 
"databases/ 


data = urll 


xList = [ 
labels = [] 





names = [ 
firstLine = 
for line in 


if first 


lotlib.pyplot as plot 


into iterable 
= ("http://archive.ics.uci.edu/ml/machine-learning-" 
wine-quality/winequality-red.csv") 


ib2.urlopen(target_url) 


"m 


rue 
data: 





Line: 


names = line.strip().split(";") 


firstLine = False 


else: 


row 


row 











split on semi-colon 


= line.strip().split(";") 


put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 

-pop () 

convert row to floats 


floatRow = [float(num) for num in row] 
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xList.append (floatRow) 


nrows = len(xList) 





ncols = len(xList[0]) 


#take fixed test set 30% of sample 





random.seed(1) 





nSample = int(nrows * 0.30) 

idxTest = random.sample(range(nrows), nSample) 

idxTest.sort() 

idxTrain = [idx for idx in range(nrows) if not(idx in idxTest)] 


#Define test and training attribute and label sets 





xTrain = [xList[r] for r in idxTrain] 
xTest = [xList[r] for r in idxTest] 
yTrain = [labels[r] for r in idxTrain] 
yTest = [labels[r] for r in idxTest] 


#train a series of models on random subsets of the training data 


fcollect the models in a list and check error of composite as list grows 


#maximum number of models to generate 


numTreesMax - 30 


#tree depth - typically at the high end 
treeDepth = 1 


#initialize a list to hold models 
modelList = [] 
predList = [] 


#number of samples to draw for stochastic bagging 


nBagSamples = int(len(xTrain) * 0.5) 





for iTrees in range (numTreesMax): 
idxBag = [] 
for i in range(nBagSamples): 
idxBag.append (random. choice (range (len (xTrain)))) 


xTrainBag = [xTrain[i] for i in idxBag] 
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yTrainBag = [yTrain[i] for i in idxBag] 


modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 





modelList[-1].fit(xTrainBag, yTrainBag) 


#make prediction with latest model and add to list of predictions 
latestPrediction = modelList[-1].predict (xTest) 
predList.append(list (latestPrediction) ) 


#build cumulative prediction from first "n" models 
mse = [] 
allPredictions = [] 


for iModels in range(len(modelList)): 


faverage first "iModels" of the predictions 
prediction = [] 
for iPred in range(len(xTest)): 
prediction.append(sum([predList[i][iPred] \ 
for i in range(iModels + 1)])/(iModels + 1)) 





allPredictions.append(prediction) 








rrors = [(yTest[i] - prediction[i]) for i in range(len(yTest))] 
mse.append(sum([e * for in errors]) / len(yTest)) 
nModels = [i * 1 for i in range(len(modelList))] 


plot.plot(nModels,mse) 
plot.axis('tight') 





plot.xlabel('Number of Tree Models in Ensemble') 





plot.ylabel('Mean Squared Error') 


plot.ylim((0.0, max(mse))) 








plot.show() 





print('Minimum MSE') 


print (min (mse)) 


#with treeDepth = 1 





#Minimum MSE 
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0.516236026081 


with treeDepth = 5 





Minimum MSE 


0.39815421341 


with treeDepth = 12 & numTreesMax = 100 





Minimum MSE 


0.350749027669 











图 6-15 展示 了 在 Bagging 集成 方法 中 包含 更 多 决策 树 时 ， 均 方 误差 如 何 变化 。 基 于 
树桩 (stumps, WEN | 的 决策 树 ) 的 集成 方法 相对 于 单个 决策 树 在 均 方 误差 方面 的 改善 
可 以 忽略 不 计 。 与 合成 数据 相 比 ， 红 酒 数据 更 加 没有 体现 性 能 上 的 改善 主要 有 以 下 儿 个 原 
E: 一 方面 红酒 口感 数据 集 边缘 数据 产生 的 误差 更 加 显著 ,另外 一 方面 变量 (属性 ) 之 
间 相 关 性 (相互 作用 ) 在 红酒 数据 上 更 加 突出 。 
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图 6-15 深度 为 1 的 决策 树 ，Bagging 方法 预测 红酒 口感 




















合成 数据 只 有 一 个 变量 (属性)， 因 此 不 存在 属性 之 间 的 相互 影响 。 红 酒 数据 有 多 
个 属性 , 因此 很 可 能 属性 的 组 合 对 预测 的 贡献 要 大 于 单独 每 个 属性 对 预测 的 贡献 和 。“ 当 
你 走路 的 时 候 被 绊 倒 了 ， 这 个 问题 不 大 。 如 果 你 沿 着 悬崖 走 ， 问 题 也 不 严重 。 但 是 如 果 
在 沿 着 悬崖 走 的 时 候 被 绊 倒 了 ， 这 个 问题 可 就 严重 了 ”( 屋 漏 偏 逢 连夜 雨 )。 上 述 两 种 可 
能 性 都 要 考虑 。 深 度 为 1 的 决策 树 只 能 考虑 单独 的 属性 ， 没 有 考虑 到 属性 之 间 相 互 影 响 
的 情况 。 
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Bagging 算法 为 达到 一 定性 能 需要 的 决策 树 深度 

图 6-16 展示 了 决策 树 深度 为 5 时 ， 均 方 误差 与 决策 树 数目 的 变化 关系 。 随 着 更 多 的 
决策 树 加 入 ，Bagging 集成 方法 的 性 能 有 明显 改善 。 最 终 的 性 能 要 远 远 好 与 深度 为 1 的 决 
策 树 。 这 种 改善 暗示 了 当 加 入 更 多 的 决策 树 时 ， 性 能 会 进一步 提高 。 
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6-16 ”深度 为 5 的 决策 树 ，Bagging 方法 预测 红酒 口感 
图 6-17 展示 了 决策 树 深度 为 12 时 ,Bagging 集成 方法 的 均 方 误差 与 决策 树 数 目的 关系 。 
不 仅 可 以 采用 更 深 的 决策 树 ， 含 有 更 多 的 决策 树 数 目 也 可 以 进一步 提升 Bagging 集成 方法 
的 性 能 。 图 6-17 展示 的 是 运行 三 次 中 最 低 的 均 方 误差 。 
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6-17 REA 12 的 决策 树 ，Bagging 方法 预测 红酒 口感 
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6.2.2 Bagging 算法 小 结 

本 节 见 证 了 集成 方法 的 第 一 个 例子 。Bagging 方法 展示 的 二 级 层次 架构 对 集成 方法 
来 讲 很 普遍 。 准 确 地 说 Bagging 是 第 二 层次 的 算法 : 它 定义 了 一 系列 的 子 问题 ， 每 个 子 
问题 由 基 学 习 器 来 解决 ， 最 终 预 测 结果 取 各 个 基 学 习 器 预测 的 平均 值 。Bagging 集成 方 
法 的 这 些 子 问题 是 从 原始 训练 数据 中 采用 自 举 取样 产生 的 。Bagging 方法 可 以 减少 单个 
二 元 决策 树 的 方差 。 为 了 保证 效果 ，Bagging 方法 采用 的 决策 树 需要 具有 足够 的 深度 。 

Bagging 方法 可 以 作为 集成 方法 的 人 门 介绍 ， 因 为 它 比 较 简单 ， 易 于 理解 ， 而 且 易 
于 证 明 它 可 以 减少 方差 的 特性 。 下 面 介 绍 的 算法 是 梯度 提升 法 (gradient boosting) 和 
随机 森林 (random forests) 。 它 们 采用 不 同 的 方法 进行 集成 ， 并 且 显示 了 优 于 Bagging 
方法 的 特性 。 人 们 通常 首先 尝试 梯度 提升 法 或 者 随机 森林 ， 但 是 不 常 使 用 Bagging, 















































6.3 梯度 提升 法 (Gradient Boosting ) 


梯度 提升 法 由 斯 坦 福 教授 Jerome Frideman 提出 ， 他 也 提出 坐标 下 降 法 来 解决 
ElasticNet 问题 ( 见 第 4 章 和 第 5 章 )。 梯 度 提升 法 是 基于 决策 树 的 集成 方法 ， 在 不 同 标签 
上 训练 决策 树 ， 然 后 将 其 组 合 起 来 。 对 于 回归 问题 ， 目 标 是 最 小 化 均 方 误 差 ， 每 个 后 续 的 
决策 树 是 在 前 面 决 策 树 遗留 的 错误 上 进行 训练 。 关 于 此 算法 的 来 源 可 以 查看 本 章 的 参考 文 
献 。 了 解 梯度 提升 法 是 如 何 工作 的 最 简单 的 方法 就 是 直接 查看 代码 实现 。 


6.3.1 梯度 提升 法 的 基本 原理 
代码 清单 6-6 展示 了 针对 本 章 的 合成 数据 问题 如 何 应 用 梯度 提升 法 。 代 码 的 前 面部 分 
是 生成 合成 数据 集 。 



































代码 清单 6-6 ”简单 问题 使 用 梯度 提升 法 -simpleGBM.py 


, author = 'mike-bowles' 


import numpy 

import matplotlib.pyplot as plot 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 
from math import floor 


import random 


#Build a simple data set with y = x + random 
nPoints = 1000 
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#x values for plotting 


xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)] 


#x needs to be list of lists. 


x = [[s] for s in xPlot] 


#y (labels) has random noise added to x-value 
#set seed 
numpy.random.seed(1) 


y = [s + numpy.random.normal(scale-0.1) for s in xPlot] 


ftake fixed test set 30$ of sample 





nSample = int(nPoints * 0.30) 
idxTest = random.sample(range(nPoints), nSample) 


idxTest.sort() 





idxTrain = [idx for idx in range(nPoints) if not(idx in idxTest)] 





#Define test and training attribute and label sets 
xTrain = [x[r] for r in idxTrain] 

xTest = [x[r] for r in idxTest] 

yTrain = [y[r] for r in idxTrain] 

yTest = [y[r] for r in idxTest] 








#train a series of models on random subsets of the training data 


fcollect the models in a list and check error of composite as list grows 


#maximum number of models to generate 


numTreesMax - 30 


#tree depth - typically at the high end 
treeDepth = 5 


finitialize a list to hold models 
modelList = [] 

predList = [] 

eps = 0.3 
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#initialize residuals to be the labels y 


residuals = list (yTrain) 


for iTrees in range (numTreesMax) : 


modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 





modelList[-1].fit(xTrain, residuals) 


#make prediction with latest model and add to list of predictions 


latestInSamplePrediction = modelList[-1].predict (xTrain) 


#use new predictions to update residuals 
residuals = [residuals[i] - eps * latestInSamplePrediction[i] \ 


for i in range(len(residuals) ) ] 


latestOutSamplePrediction = modelList[-1].predict (xTest) 
predList.append(list(latestOutSamplePrediction)) 


#build cumulative prediction from first "n" models 


= [] 


allPredictions = [] 


for iModels in range (len (modelList)): 


#add the first "iModels" of the predictions and multiply by eps 
prediction = [] 
for iPred in range(len(xTest)): 


prediction.append(sum([predList[i][iPred] 





for i in range(iModels + 1)]) * eps) 


allPredictions.append (prediction) 








rrors = [(yTest[i] - prediction[i]) for i in range(len(yTest))] 
mse.append(sum([e * for in errors]) / len(yTest)) 
nModels = [i + 1 for i in range (len (modelList))] 


plot.plot (nModels,mse) 
plot.axis('tight') 
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lot.xlabel('Number of Models in Ensemble') 








lot.ylabel('Mean Squared Error') 


lot.ylim((0.0, max(mse))) 


!g e e t" tg 
© © O O 


lot.show() 


plotList = [0, 14, 29] 





lineType = [':', '-.', '--'] 








plot.figure() 
for i in range(len(plotList)): 
iPlot = plotList[i] 
textLegend = 'Prediction with ' + str(iPlot) + ' Trees' 





plot.plot(xTest, allPredictions[iPlot], label = textLegend, 





linestyle = lineType[i]) 
lot.plot(xTest, yTest, label-'True y Value', alpha=0.25) 
Llot.legend(bbox to anchor-(1,0.3)) 
lot.axis('tight') 
lot.xlabel('x value') 


lot.ylabel('Predictions') 








T 0 "Og "UO G W 
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lot.show() 
梯度 提升 法 参数 设置 





第 一 个 与 前 面 例子 的 不 同 之 处 就 是 单个 决策 树 深度 的 设置 。 梯 度 提 升 法 与 Bagging 和 
随机 森林 的 不 同 之 处 在 于 它 在 减少 方差 的 同时 ， 还 可 以 减少 偏差 。 梯 度 提 升 法 的 特性 就 是 
它 在 树桩 (深度 为 1 的 决策 树 ) 决策 树 的 情况 下 ， 也 可 以 获得 同 更 深 的 决策 树 一 样 低 的 均 
方 误差 值 。 对 于 梯度 提升 法 ， 只 有 属性 之 间 有 强烈 的 相互 影响 的 情况 下 ， 才 需要 考虑 增加 
决策 树 的 深度 。 随 着 决策 树 深 度 的 增加 ， 性 能 获得 了 改善 实际 上 可 以 作为 判断 属性 之 间 是 
否 存 在 相互 影响 的 方法 。 

另 一 个 不 同 点 就 是 变量 eps 的 定义 。 这 个 变量 在 优化 问题 时 用 来 控制 步 长 。 梯 度 提 
升 法 使 用 了 梯度 下 降 法 ， 就 像 其 他 梯度 下 降 算法 一 样 ， 如 果 步 长 太 大 ， 优 化 过 程 就 会 发 
散 而 不 是 收 僵 。 如 果 步 长 太 小 ， 则 需要 执行 太 多 次 迭代 。 本 章 后 续 会 讨论 如 何 调 整 步 长 ， 
即 eps 值 。 

下 一 段 不 太 熟 悉 的 代码 就 是 关于 变量 残 差 (residuals) 的 定义 。 术 语 残 差 通常 用 于 表 
示 预 测 误差 (在 这 里 是 : 观测 值 减 去 预测 值 )。 梯 度 提 升 法 会 对 标签 的 预测 值 进行 一 系列 
精确 化 。 沿 着 梯度 下 降 的 方向 ， 每 走 一步 ， 残 差 都 会 重新 计算 。 在 开始 阶段 ， 梯 度 提 升 法 
将 初始 化 预测 值 为 空 (null) 或 0， 因此 残 差 等 于 观测 值 。 
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梯度 提升 法 如 何 通过 和 迭代 获得 预测 模型 

对 iTrees 的 循环 是 以 用 属性 值 训 练 一 个 决策 树 开 始 的 , 但 是 用 残 差 代替 标签 进行 训练 。 
只 有 第 一 轮 是 用 原始 的 标签 来 训练 数据 的 。 后 续 的 循环 都 是 用 训练 产生 的 预测 值 ， 然 后 用 
残 差 减 去 (eps* 预测 值 ) 作为 目标 结果 进行 训练 。 如 前 文 提 到 的 ， 残 差 减 去 的 相当 于 梯 
度 下 降 的 值 。 乘 以 一 个 步 长 控制 参数 eps 就 是 为 了 保证 迭代 过 程 的 收敛 。 代 码 使 用 固定 的 
预 留 数据 集 (测试 数据 ) 来 测量 性 能 ， 并 绘制 了 均 方 误差 与 决策 树 数目 的 关系 图 以 及 预测 
值 与 单一 属性 值 的 关系 图 。 
6.3.2 ”获取 梯度 提升 法 的 最 佳 性 能 

图 6-18 和 图 6-19 展示 了 均 方 误差 与 决策 树 数目 的 关系 图 ， 预测 值 与 属性 值 的 关系 图 ， 
决策 树 深度 为 1，eps=0.1。 图 6-18 展示 了 均 方 误差 平滑 下 降 ， 在 训练 了 30 个 决策 树 的 情 
况 下 ， 大 概 达 到 0.014。 均 方 误差 曲线 向 下 ， 说 明 随 着 决策 树 的 增加 ， 其 值 会 持续 下 降 。 



























































5 10 15 20 25 30 
集成 方法 中 使 用 的 模型 的 数目 

















6-18 ”合成 数据 问题 均 方 误差 与 决策 树 数目 的 关系 ( eps=0.1, 决策 树 深度 为 1 ) 

















图 6-19 为 三 个 梯度 提升 模型 下 ， 属 性 值 与 预测 值 之 间 的 关系 : 只 训练 一 个 决策 树 、 
训练 15 个 决策 树 、 训 练 30 个 决策 树 。 训 练 一 个 决策 树 的 模型 就 像 是 我 们 在 决策 树 介 绍 
章节 见 到 过 的 决策 树 模型 的 减弱 版 本 。 它 实际 上 是 一 个 深度 为 1 的 决策 树 ， 基 于 标签 进行 
训练 ， 然 后 再 乘 以 0.1 (eps 的 值 )。 当 模型 使 用 10 个 决策 树 时 ， 有 趣 的 现象 出 现 了 。 模 
型 实现 了 对 正确 答案 〈 一 个 45 度 角 的 直线 ) 很 好 的 逼近 。 使 用 10 个 决策 树 的 模型 大 概 
可 以 正确 预测 一 半 的 边界 ， 其 右边 、 左 边 的 预测 值 为 常数 。 使 用 30 个 决策 树 的 模型 在 每 
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个 数据 的 边界 都 实现 了 很 好 的 逼近 。 在 这 一 点 上 与 采用 树桩 (stumps) 决策 树 的 Bagging 
方法 有 很 大 区 别 。 











6-19 ”梯度 提升 法 ， 预 测 值 与 属性 值 的 关系 ( eps=0.1, 决策 树 深度 为 1 ) 











Bagging 方法 不 能 改善 偏差 (bias error)， 这 是 由 浅 决 策 树 固有 特性 决定 的 。 梯 度 提 升 
法 以 同样 的 方式 开始 ， 但 是 随 着 它 开始 减少 过 程 中 产生 的 错误 ， 它 开始 更 关注 犯错 误 的 区 
域 。 在 会 发 生 错误 的 地 方 设立 分 割 点 。 这 个 过 程 使 得 不 需要 加 深 决 策 树 的 深度 ， 就 可 以 获 
得 很 好 的 逼近 。 

当 控制 训练 的 参数 变化 时 会 发 生 什么 ?” 当 决策 树 的 深度 为 5 时 发 生 的 变化 如 图 6-20 和 
图 6-21 所 示 。 当 决策 树 的 数目 增加 时 ， 均 方 误差 会 平滑 下 降 ， 如 图 6-20 所 示 。 当 训练 
30 个 深度 为 5 的 决策 树 时 ， 均 方 误差 非常 接近 完美 值 (0.01)。 图 中 没有 显示 训练 时 间 。 
训练 时 ， 决 策 树 的 每 一 层 大 约 花 费 相同 的 时 间 。 在 每 一 层 ， 所 有 可 能 的 分 割 点 根据 均 方 
误差 进行 比较 。 因 此 深度 为 5 的 决策 树 所 需 时 间 是 5 个 深度 为 1 的 决策 树 所 需 时 间 的 5 倍 。 
通过 比较 可 知 ,150 个 深度 为 1 的 决策 树 的 性 能 相当 于 30 个 深度 为 5 的 决策 树 。 

决策 树 深度 对 梯度 提升 方法 的 影响 如 图 6-21 所 示 。 即 使 只 采用 了 单独 一 个 决策 树 ， 
其 预测 值 在 整个 属性 值 区 间 也 显示 了 一 些 变 化 。 基 于 15 个 决策 树 的 模型 和 30 个 决策 树 
的 模型 在 数据 的 边界 仍然 有 一 定 的 误差 。 

图 6-22 和 图 6-23 展示 了 增加 步 长 参数 eps 会 发 生 什么 。 图 6-22 展示 了 步 长 (eps) 
太 大 会 有 什么 特性 。 均 方 误 差 随 着 决策 树 数目 的 增加 而 急剧 下 降 ， 然 后 又 缓慢 增加 。 其 最 
小 值 是 在 图 的 左边 ， 接 近 三 分 之 一 的 地 方 。 可 以 调整 eps 的 值 ， 使 均 方 误差 最 小 值 在 或 者 
接近 图 的 右 侧 ， 这 样 通常 可 以 获得 更 佳 的 性 能 。 
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5 10 15 20 25 30 
集成 方法 中 使 用 的 模型 的 数目 


























图 6-20 合成 数据 问题 ， 均 方 误差 与 决策 树 数目 的 关系 ，eps=0.1, 决策 树 深度 为 5 








1 个 决策 树 时 的 预测 值 

-15 个 决策 树 时 的 预测 值 

-- 30 个 决策 树 时 的 预测 值 
标签 值 





-0.4 -0.2 0.0 0.2 0.4 
x 值 














图 6-21 梯度 提升 法 ， 预 测 值 与 属性 值 的 关系 ，eps=0.1， 决 策 树 深度 为 5 





如 图 6-23 所 示 ， 预 测 值 作为 属性 值 的 函数 eps 为 0.3 的 版 本 要 比 eps 为 0.1 的 两 个 版 
本 (深度 为 1 的 决策 树 、 深 度 为 5 的 决策 树 ) 沿 45% 的 直线 显示 了 更 多 分 散 的 突起 。 总 
的 来 看 ， 深 度 为 1 的 决策 树 显示 了 最 佳 的 性 能 。 这 说 明 训练 更 多 的 决策 树 ， 会 进一步 改善 
模型 在 数据 边界 上 的 性 能 ， 从 而 获得 梯度 提升 的 最 佳 性 能 。 
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5 10 15 20 25 30 
集成 方法 中 使 用 的 模型 的 数目 





























合成 数据 问题 ， 均 方 误 差 与 决策 树 数目 的 关系 ，eps=0.3, 决策 树 深度 为 5 








1 个 决策 树 时 的 预测 值 
- 15 个 决策 树 时 的 预测 值 
-- 30 个 决策 树 时 的 预测 值 
标签 值 





-0.4 -0.2 0.0 0.2 0.4 
x fü 














6-23 ”梯度 提升 法 ， 预 测 值 与 属性 值 的 关系 ，eps=0.3, 决策 树 深度 为 5 


6.3.3 ”针对 多 变量 问题 的 梯度 提升 法 








代码 清单 6-7 展示 了 如 何 使 用 梯度 提升 法 来 预测 红酒 口感 。 除 了 使 用 红酒 数据 集 作 为 
输入 外 ， 此 代码 与 用 于 合成 数据 的 代码 十 分 相似 。 
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代码 清单 6-7 使 用 梯度 提升 法 预测 红酒 口感 -wineGBM.py 


, author  - 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 
import random 

from math import sqrt 


import matplotlib.pyplot as plot 


#read data into iterable 
target url - "http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 


data - urllib2.urlopen(target url) 


xList = [ 
labels = [] 


names = [ 





"m 


firstLine = True 
for line in data: 
if firstLine: 


names = line.strip().split(";") 





firstLine = False 
else: 
Split on semi-colon 
row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1])) 
remove label from row 


row.pop () 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


nrows = len(xList) 





ncols = len(xList[0]) 
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#take fixed test set 30% of sample 





nSample = int(nrows * 0.30) 
idxTest = random.sample (range (nrows), nSample) 


idxTest.sort() 





idxTrain = [idx for idx in range(nrows) if not(idx in idxTest)] 


#Define test and training attribute and label sets 





xTrain = [xList[r] for r in idxTrain] 
xTest = [xList[r] for r in idxTest] 
yTrain = [labels[r] for r in idxTrain] 
yTest = [labels[r] for r in idxTest] 


#train a series of models on random subsets of the training data 


#collect the models in a list and check error of composite as list grows 


#maximum number of models to generate 


numTreesMax = 30 


#tree depth - typically at the high end 
treeDepth = 5 


#initialize a list to hold models 
modelList - [] 
predList = [] 


eps = 0.1 


#initialize residuals to be the labels y 


residuals = list(yTrain) 


for iTrees in range (numTreesMax): 


modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 





modelList[-1].fit(xTrain, residuals) 


#make prediction with latest model and add to list of predictions 


latestInSamplePrediction = modelList[-1].predict (xTrain) 


#use new predictions to update residuals 


residuals = [residuals[i] - eps * latestInSamplePrediction[i] \ 
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for i in range(len(residuals) ) ] 


latestOutSamplePrediction = modelList[-1].predict (xTest) 
predList.append(list(latestOutSamplePrediction)) 


#build cumulative prediction from first "n" models 
mse - [] 
allPredictions = [] 


for iModels in range (len (modelList)): 


#add the first "iModels" of the predictions and multiply by eps 
prediction = [] 
for iPred in range(len(xTest)): 


prediction.append(sum([predList[i][iPred] 





for i in range(iModels + 1)]) * eps) 


allPredictions.append (prediction) 








rrors = [(yTest[i] - prediction[i]) for i in range(len(yTest))] 
mse.append(sum([e * for in errors]) / len(yTest)) 
nModels = [i + 1 for i in range (len (modelList))] 


plot.plot (nModels,mse) 
plot.axis('tight') 





plot.xlabel('Number of Trees in Ensemble!) 





plot.ylabel('Mean Squared Error') 


plot.ylim((0.0, max(mse))) 








plot.show() 





print('Minimum MS 


Fl 


print (min (mse) ) 


#printed output 





= 


#Minimum MSE 
#0.405031864814 





选择 的 参数 为 :30 个 深度 为 5 决策 树 ,eps=0.1。 这 个 参数 集 产 生 的 均 方 误差 大 致 为 0.4。 


64 随机 森林 | 244 


对 于 同样 的 问题 ， 此 方法 大 概 比 Bagging 的 方法 差 10%。 可 以 尝试 调 整 : 决策 树 的 数目 、 
eps 步 长 和 决策 树 的 深度 来 看 看 是 否 可 以 获得 更 佳 的 性 能 。 

均 方 误差 与 决策 树 数目 的 关系 曲线 在 右边 相当 平坦 ， 如 图 6-24 所 示 。 通 过 增加 决策 
树 的 数目 还 是 可 能 获得 性 能 上 的 改善 的 。 另 外 一 个 可 能 “压榨 ”性 能 的 方法 就 是 微调 步 长 
或 决策 树 的 深度 。 
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图 6-24 红酒 口感 问题 ， 梯 度 提 升 法 ， 均 方 误 差 与 决策 树 数 目的 关系 
































6.3.4 梯度 提升 方法 的 小 结 

本 节 介 绍 了 如 何 使 用 梯度 提升 方法 、 如 何 调整 参数 获得 最 佳 性 能 ， 以 及 步 长、 决策 
树 深 度 、 决 策 树 数目 对 性 能 的 影响 。 还 介绍 了 梯度 提升 法 是 如 何 避 免 偏差 的 ， 这 个 是 
Bagging 方法 采用 浅 决策 树 时 会 遇 到 的 问题 。Bagging 和 梯度 提升 法 在 工作 原理 上 的 根本 
差异 在 于 梯度 提升 法 持续 监测 自己 的 累积 误差 ， 然 后 使 用 残 差 进行 后 续 训 练 。 这 种 根本 差 
异 也 解释 了 为 什么 当 问 题 属性 之 间 存 在 强 的 相互 依赖 、 相 互 作用 时 ， 梯 度 提 升 法 只 需要 调 
整 决策 树 的 深度 。 
































6.4 ”随机 森林 


随机 森林 算法 由 伯克利 教授 Leo Breiman 和 Adele Cutler 联合 提出 。 随 机 森林 在 数据 
集 的 子 集 上 训练 出 一 系列 的 模型 。 这 些 子 集 是 从 全 训练 数据 集中 随机 抽取 的 。 一 种 抽取 
方法 就 是 对 数据 行 的 随机 放 回 取样 ， 同 Brieman 的 自 举 集成 方法 一 样 。 另 一 种 方法 是 每 个 
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决策 树 的 训练 数据 集 只 是 所 有 属性 随机 抽取 的 一 个 子 集 , 而 不 是 全 部 的 属性 。 代 码 清 自 


| 过 








用 Python 的 DecisionTreeRegression 来 近似 随机 森林 。 


代码 清单 6-8 ”随机 选择 属性 的 bagging 方法 - wineRF.py 


, author  - 'mike-bowles' 


import urllib2 

import numpy 

from sklearn import tree 

from sklearn.tree import DecisionTreeRegressor 
import random 

from math import sqrt 


import matplotlib.pyplot as plot 


#read data into iterable 
target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 





xList = [ 
labels = [] 
names = [ 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row. pop () 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


6-8 
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nrows = len(xList) 





ncols = len(xList[0]) 





#take fixed test set 30% of sample 

random.seed(1) #set seed so results are the same each run 
nSample = int(nrows * 0.30) 

idxTest = random.sample (range (nrows), nSample) 


idxTest.sort() 





idxTrain = [idx for idx in range(nrows) if not(idx in idxTest)] 


#Define test and training attribute and label sets 





xTrain = [xList[r] for r in idxTrain] 
xTest = [xList[r] for r in idxTest] 
yTrain = [labels[r] for r in idxTrain] 
yTest = [labels[r] for r in idxTest] 


#train a series of models on random subsets of the training data 


#collect the models in a list and check error of composite as list grows 


#maximum number of models to generate 


numTreesMax = 30 


#tree depth - typically at the high end 
treeDepth = 12 


#pick how many attributes will be used in each model. 
# authors recommend 1/3 for regression problem 


nAttr = 4 


#initialize a list to hold models 


modelList = [] 





indexList = [] 
predList = [] 


nTrainRows = len(yTrain) 


for iTrees in range (numTreesMax) : 
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modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 
#take random sample of attributes 
idxAttr = random.sample(range(ncols), nAttr) 


idxAttr.sort() 





indexList.append(idxAttr) 


#take a random sample of training rows 

idxRows - [] 

for i in range(int(0.5 * nTrainRows)): 
idxRows.append(random.choice (range (len (xTrain)))) 


idxRows.sort() 


fbuild training set 


xRfTrain = [] 





yRfTrain = [] 


for i in range(len(idxRows)): 
temp = [xTrain[idxRows[i]][j] for j in idxAttr] 
xRfTrain.append (temp) 





yRfTrain.append(yTrain[idxRows[i]]l) 


modelList[-1].fit(xRfTrain, yRfTrain) 


#restrict xTest to attributes selected for training 


xRfTest = [ 


T 


for xx in xTest: 





temp = [xx[i] for i in idxAttr] 


xRfTest.append (temp) 


latestOutSamplePrediction = modelList[-1].predict(xRfTest) 
predList.append(list(latestOutSamplePrediction)) 


#build cumulative prediction from first "n" models 
mse - [] 
allPredictions = [] 


for iModels in range (len (modelList)): 


6.4 ”随机 和 森林 


#add the first "iModels" of the predictions and multiply by eps 
prediction = [] 
for iPred in range(len(xTest)): 


prediction.append(sum([predList[i] [iPred] 





for i in range(iModels + 1)]) / (iModels + 1)) 


allPredictions.append (prediction) 








rrors = [(yTest[i] - prediction[i]) for i in range (len (yTest))] 
mse.append(sum([e * for in errors]) / len(yTest)) 
nModels = [i * 1 for i in range(len(modelList))] 








.plot(nModels,mse) 
.axis('tight') 





.xlabel('Number of Trees in Ensemble!) 





.Vylabel('Mean Squared Error') 
.ylim((0.0, max (mse))) 


.show() 





print('Minimum MSE') 


print (min (mse)) 








Minimum MSE 


0.52666715461 


Minimum MSE 


0.426116327584 


Minimum MSE 


0.38508387863 


printed output 


Depth 1 





Depth 5 





Depth 12 
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6.4.1 随机 森林 : Bagging 加 上 随机 选择 的 属性 子 集 

代码 清单 6-8 是 对 红酒 口感 数据 集 的 训练 ， 用 来 说 明 Bagging 和 梯度 提升 算法 的 
单一 属性 的 例子 是 不 能 用 于 随机 森林 的 。 那 个 例子 只 有 一 个 属性 。 对 于 单独 一 个 属性 
进行 随机 选取 是 没有 意义 的 。 代 码 清单 6-8 看 起 来 很 像 Bagging 的 代码 。 两 者 之 间 
唯一 的 差别 就 是 在 iTrees 循环 之 前 ， 指 定 了 一 个 变量 nAttr。 随 机 抽取 属性 时 ， 需 
要 知道 要 选取 多 少 个 属性 。 算 法 的 提出 者 建议 对 于 回归 问题 ， 选 择 全 部 属性 的 三 分 
之 一 (对 于 分 类 问题 ， 选 择 全 部 属性 数目 的 平方 根 )。 在 iTrees 循环 内 部 ， 有 对 属 
性 矩阵 行 的 取样 (这 与 Bagging 相同 )。 还 有 一 个 对 属性 矩阵 的 列 的 随机 不 放 回 取 
FÉ (如 果 是 numpy 的 数组 形式 ， 就 是 行 和 列 )。 人 然后 训练 决策 树 ， 对 测试 数据 进行 
预测 。 

代码 清单 6-8 中 的 实现 与 随机 森林 算法 还 有 区 别 。 代 码 清单 6-8 取 属 性 的 一 个 随机 子 
集 ， 然 后 基于 此 子 集训 练 决策 树 。Breiman 的 原始 版 本 对 决策 树 的 每 个 节点 都 用 不 同 的 属 
性 随机 子 集 进行 训练 。 为 了 实现 Breiman 的 原始 版 本 ， 需 要 访问 决策 树 生 成 算法 的 内 部 。 
这 个 例子 只 是 给 出 了 这 个 算法 应 该 如 何 使 用 的 大 概 思 路 ， 而 且 有 人 认为 对 决策 树 的 每 个 节 
点 都 随机 选择 属性 的 意义 并 不 大 。 


6.4.2 ”随机 森林 的 性 能 

图 6-25 一 图 6-27 为 增加 属性 的 随机 选择 后 ， 对 均 方 误差 与 决策 树 数 目的 关系 曲线 
的 影响 。 图 6-25 为 决策 树 深度 为 1 时 的 结果 。 此 图 与 Bagging 方法 十 分 相似 ， 说 明 性 
能 没有 太 大 提高 。 深 度 为 1 的 决策 树 主要 导致 了 偏差 ,而 不 是 方差 。 偏差 是 不 能 被 平均 的 。 
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图 6-25 Bagging+ 属性 随机 选择 ， 均 方 误差 与 决策 树 数目 的 关系 ， 决 策 树 深度 为 1 
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图 6-26 为 决策 树 深 度 为 5 时 的 均 方 误差 曲线 。 通 过 Bagging 方法 减少 了 方差 ， 再 加 上 属 
性 随机 选择 方法 开始 呈现 了 一 定性 能 上 的 改善 。 这 种 组 合 可 以 达到 与 其 他 方法 相似 的 性 能 。 
0.6 

















0.5 


0.4 


0.0 
5 10 15 20 25 30 


集成 方法 中 使 用 的 模型 的 数目 























图 6-26 Bagging+ 属性 随机 选择 ， 均 方 误差 与 决策 树 数目 的 关系 ， 决 策 树 深度 为 5 














图 6-27 说 明 当 采用 深度 为 12 的 决策 树 的 时 候 ， 还 可 以 更 进一步 提高 性 能 。 
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图 6-27 Bagging* 属性 随机 选择 ， 均 方 误差 与 决策 树 数目 的 关系 ， 决 策 树 深度 为 12 











6.4.8 ”随机 森林 小 结 
随机 森林 是 两 个 方法 的 结合 ， 包 括 Bagging 方法 和 属性 随机 选择 方法 。 属 性 随机 选择 
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方法 实际 上 是 对 二 元 决策 树 基 学 习 器 的 修正 。 这 些 差异 看 起 来 不 是 本 质 上 的 ， 但 是 这 些 
给 予 了 随机 森林 与 Bagging 和 梯度 提升 法 不 同 的 性 能 特性 。 有 研究 结果 建议 随机 森林 更 适 
用 于 广泛 稀 芷 的 属性 空间 , 如 文本 挖掘 问题 。 与 梯度 提升 法 相 比 , 随机 森林 更 易于 并 行 化 ， 
因为 每 个 基 学习 器 都 可 以 单独 训练 。 然 而 梯度 提升 法 不 行 ， 因 为 每 个 基 学 习 器 都 依赖 于 前 
一 个 基 学 习 器 的 结果 。 

这 些 差 异 说 明 除了 梯度 提升 法 以 外 ， 还 可 以 尝试 随机 森林 以 获取 最 佳 性 能 。 



































小 结 


本 草 介 绍 了 集成 方法 的 背景 知识 。 集 成 方法 由 两 层 算法 组 成 。 集 成 方法 训练 成 百 上 千 

个 叫 作 基 学 习 器 的 低层 算法 ， 上 层 的 算法 控制 基 学 习 器 的 训练 ， 使 这 些 基 学 习 器 近乎 相互 
独立 ， 这 样 将 这 些 基 学 习 带 组 合 起 来 就 可 以 减少 组 合 后 的 误差 方差 。Bagging 方法 对 训练 
数据 集 进 行 自 举 抽样 (bootstrap sample, 在 一 个 原始 样本 中 进行 有 放 回 的 重复 抽样 )， 然 后 
基于 这 些 抽样 训练 基 学 习 器 。 梯 度 提 升 方法 在 每 一 步 对 输入 数据 进行 抽样 ， 然 后 基于 这 一 
样本 训练 基 学 习 器 。 梯 度 提 升 法 训练 每 个 基 学 习 器 的 目标 是 前 期 所 有 基 学 习 器 的 累积 误 
差 。 随 机 森林 是 将 Bagging 作为 高 层 算法 ， 将 修改 版 的 二 元 决策 树 作为 基 学 习 器 。 随 机 森 
林 的 基 学 习 器 是 二 元 决策 树 ， 分 割 点 的 选择 是 基于 所 有 属性 的 一 个 随机 取样 ， 而 不 是 考 
EMARE, Python 的 梯度 提升 工具 包 人 允许 将 随机 森林 作为 梯度 提升 法 的 基 学 习 器 。 第 7 
章 会 详细 介绍 这 一 点 。 
本 章 展示 了 集成 方法 每 个 上 层 算法 的 代码 和 随机 森林 基 学 习 器 的 “ 摹 本 ”， 目 的 是 
证 读者 理解 每 个 算法 的 工作 机 制 。 这 种 方式 有 助 于 更 好 地 理解 Python 对 应 算法 包 的 选 
项 、 输 入 变量 、 归 一 化 初始 值 等 。 下 一 章 将 介绍 如 何 使 用 Python 工具 包 解 决 惩罚 线性 
回归 章节 中 遇 到 的 问题 。 
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第 7 章 


用 Python 构建 集成 模型 





本 章 使 用 Python 工具 包 利用 第 6 章 介绍 的 集成 方法 构建 预测 模型 。 解 决 的 问题 在 第 
2 章 中 已 介绍 过 。 第 5 章 介 绍 了 如 何 使 用 惩罚 线性 回归 来 构建 预测 模型 解决 上 述 问题 。 本 
章 使 用 集成 方法 来 解决 同样 的 问题 。 这 样 可 以 对 集成 方法 与 惩罚 线性 回归 做 多 方位 的 比 
Bt: 算法 、Python 工具 包 的 易 用 性 、 所 能 达到 的 准确 性 、 训 练 所 需 的 时 间 等 等 。 本 章 的 
最 后 是 各 种 算法 的 对 比 总 结 。 

















7.1 用 Python 集成 方法 工具 包 解 决 回 归 问 题 


下 面 介绍 如 何 使 用 构建 集成 方法 模型 的 Python 工具 包 ， 将 实际 应 用 第 6 章 的 知识 。 
本 章 使 用 第 6 章 介绍 的 方法 来 解决 第 2 章 提出 的 问题 ， 并 与 第 5 章 的 惩罚 线性 回归 方法 进 
行 对 比分 析 。 通 过 解决 同样 的 问题 , 可 以 对 算法 进行 多 维度 的 比较 , 包括 性 能 、 训 练 时 间 、 
易 用 性 等 。 本 章 还 将 介绍 这 些 Python 工具 包 的 使 用 。 第 6 章 的 知识 将 有 助 于 理解 为 什么 
Python 工具 包 如 此 设计 ,以 及 如 何 充 分 利用 这 些 方法 的 特性 。 本 节 将 解决 不 同类 型 的 问题 ， 
从 回归 问题 开始 。 
































7.1.1 构建 随机 森林 模型 来 预测 红酒 口感 
通过 红酒 口感 数据 集 可 以 利用 红酒 中 的 化 学 成 分 来 预测 红酒 口感 的 分 数 。 众 所 周知 ， 
此 问题 是 一 个 回归 问题 ， 因 为 预测 值 是 实数 的 形式 。Python scikit-learn 算法 包 集 成 方法 模 
块 中 有 随机 森林 和 梯度 提升 法 ， 这 两 个 算法 都 可 以 用 来 解决 回归 问题 。 首 先 解 释 初 始 化 
RandomForestRegressor 类 成 员 所 需 的 参数 ， 然 后 使 用 RandomForestRegressor 类 来 训练 一 
个 随机 和 森林 模型 ， 将 此 模型 应 用 于 红酒 数据 集 ， 测 试 模型 的 性 能 。 
构建 RandomForestRegressor X% 

sklearn.ensemble.RandomForestRegressor 的 类 构造 函数 如 下 。 









































Sklearn.ensemble.RandomForestRegressor(n estimators-10, criterion-'mse', 


max depth-None, min samples split-2, min samples leaf-1, max features- 'auto', 
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max leaf nodes-None, bootstrap=True, oob score-False, n jobs-1, random_ 





state-None, verbose-0, min density-None, compute importances-None) 

下 面 描述 来 自 sklearn 官方 文档 ， 但 上 只 选取 了 最 可 能 需要 修改 的 参数 。 对 于 这 些 参数 ， 
下 面 介 绍 如 何 选择 其 他 值 来 代替 缺 省 值 。 其 他 参数 的 介绍 可 参考 sklearn 官方 文档 。 

€ n estimators 

TER, upye (WE 10), 

此 参数 指定 集成 方法 中 决策 树 的 数目 。 通 常 缺 省 值 就 可 以 工作 得 很 好 。 如 果 想 获得 最 
佳 的 性 能 ， 就 需要 多 于 10 个 决策 树 。 可 以 通过 做 实验 尝试 确定 最 佳 的 决策 树 数 目 。 正 如 
全 书 始 终 强 调 的 ， 合 适 的 模型 复杂 度 (决策 树 的 深度 和 决策 树 的 数目 ) 取决 于 问题 的 复杂 
度 和 可 获得 的 数据 的 规模 。 比 较 好 的 尝试 是 100 ~ 500, 

€ max depth 

整 型 或 者 none, yt ( 缺 省 值 为 None)。 

如 果 这 个 参数 设置 为 None， 决 策 树 就 会 持续 增长 ， 直 到 叶子 节点 为 空 或 者 所 含 数 
据 实例 小 于 min_samples_split。 除 了 指定 决策 树 的 深度 ， 可 以 用 参数 max_leaf_nodes 来 
指定 决策 树 的 叶子 节点 数 。 如 果 指 定 了 max_leaf nodes, max depth 参数 就 会 被 忽略 。 
不 设置 max_depth， 让 决策 树 自由 生长 ， 形 成 一 个 满 度 的 决策 树 可 能 可 以 获得 性 能 上 的 好 
处 。 当 然 与 之 相伴 的 代价 就 是 训练 时 间 。 在 模型 的 训练 过 程 中 ， 可 能 需要 尝试 不 同 深度 
的 决策 树 。 

€ min sample split 

整 型 ， 可 选 ( 缺 省 值 为 2)。 

当 节 点 含有 的 数据 实例 少 于 min sample split 时 ， 此 节点 不 再 分 割 。 对 含有 较 少 实例 
的 节点 进行 分 割 是 过 拟 合 错误 的 源头 。 

€ min samples leaf 

Tem, upye 〈 缺 省 值 为 1)。 

如 果 分 割 导致 节点 拥有 的 数据 实例 少 于 min sample leaf， 分 割 就 不 会 进行 。 这 个 参 
数 的 缺 省 值 实际 上 导致 此 参数 被 忽略 。 通 常 这 是 可 行 的 ， 特 别 是 对 数据 集 进行 头 几 次 试 运 
行 时 。 可 以 用 各 种 方法 为 这 个 参数 选择 一 个 更 有 意义 的 值 。 一 个 方法 是 参数 选取 为 叶子 节 
点 含有 实例 数 的 平均 值 ， 这 样 如 果 叶 节点 含有 多 于 1 个 的 数据 实例 ， 就 可 以 获得 更 低 的 均 
方差 。 另 一 种 方法 是 将 此 参数 看 作 控 制 决策 树 深 度 的 替代 方法 。 

€ max features 

整 型 、 浮 点 型 或 字符 串 型 ， 可 选 〈 缺 省 值 为 None)。 

当 查 找 最 佳 分 割 点 时 ， 需 要 考虑 多 少 个 属性 是 由 max features 参数 和 问题 中 一 共有 多 
> 个 属性 共同 决定 的 。 假 设 问题 数据 集中 共有 nFeatures 个 属性 。 则 : 
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e 如 果 max features 是 整 型 ， 则 在 每 次 分 割 时 考虑 max features 个 属性 。 注 : 
如 果 max features > nFeatures， 则 抛 出 错误 。 

e 如 果 max features 是 浮 点 型 ，max_features 表示 需 考虑 的 属性 占 全 部 属性 的 百 
分 比 ， 即 int( max_features*nFeatures) , 

e 可 选择 的 字符 串 值 如 下 : 


auto max features-nFeatures 











sqrt max features-sqrt (nFeatures) 
log2 max features=1og2 (nFeatures) 
e 如果 max features-None, 则 max features-nFeatures 
Brieman 和 Cutler 建议 对 回归 问题 使 用 sqrt(nFeatues) 个 属性 。 模 型 通常 对 max 
features 不 是 很 敏感 ， 但 是 这 个 参数 还 是 有 一 些 影 响 ， 因 此 可 以 根据 需要 尝试 一 些 
不 同 的 值 。 
€ random state 
XU. RandomState ^ 实例 ， 或 者 None ( 缺 省 值 为 None), 
e 如 果 类 型 是 整 型 ， 则 此 整数 作为 随机 数 生成 器 的 种 子 。 
e 如 果 是 RandomState 的 一 个 实例 ， 则 此 实例 用 来 作为 随机 数 生成 器 。 
e 如 果 是 None, 则 随机 数 生 成 器 是 numpy.random 用 的 RandomState 的 一 个 实例 。 
RandomForestRegressor 类 有 几 个 属性 ， 包 括 用 来 构成 集成 方法 的 决策 树 。RandomForest 
Regressor 类 有 用 训练 好 的 决策 树 进 行 预测 的 方法 ， 因 此 通常 不 需要 直接 访问 这 些 属 
性 。 但 是 可 能 需要 访问 变量 importances。 下 面 是 对 此 变量 的 描述 。 
€ feature importances 
这 是 一 个 数组 ， 数 组 的 长 度 等 于 问题 的 属性 数 (也 就 是 nFeatures)。 数 组 中 的 值 是 
正 的 浮 点 数 ， 表 明 对 应 的 属性 对 预测 结果 的 贡献 重要 性 。 属 性 的 重要 性 由 Brieman 在 
最 初 的 随机 和 森林 论文 中 所 提 的 一 个 方法 来 确定 。 基 本 思想 是 ， 每 次 选中 一 个 属性 ， 然 
后 对 属性 的 值 进 行 随机 置换 ， 记 录 下 预测 准确 性 的 变化 ， 预 测 的 准确 性 越 高 ， 此 属性 
也 越 重 要 。 
下 面 是 对 类 的 方法 的 描述 。 
€ fit(XTrain, yTrain, sample weight-None) 
XTrain 是 属性 值 的 数组 (训练 数据 ), 它 有 nInstances 行 和 nFeatures 7], yTrain 是 目标 (ËR 
签 ) 值 的 数组 。y 同样 有 nlInstances 行 。 在 本 章 的 例子 中 可 以 看 到 yTrain 只 有 一 列 ， 但 
是 此 方法 可 以 应 用 于 具有 不 同 目 标的 模型 。 因 此 y 可 以 有 nTargets 列 ， 每 列 对 应 一 个 结 
TR (目标 ,标签 ) 集合 。Sample_weight 用 来 对 训练 数据 集中 的 每 个 实例 分 配 不 同 的 权重 ， 


RandomState : Python numpy 的 Mersenne Twister 伪 随 机 数 生成 器 。 
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它 有 两 种 形式 : 缺 省 值 是 None， 意 味 着 所 有 输入 实例 具有 相同 的 权重 ， 如 果 对 每 个 实 
例 分 配 不 同 的 权重 ，sample_weight 就 是 一 个 数组 ， 具 有 nInstances 行 和 1 列 。 

€ predict(XTest) 

XTest 是 属性 值 的 数组 (测试 数据 )， 基 于 这 些 属性 值 进行 预测 。 此 数组 是 predict( 77 
法 的 输入 ， 此 数组 的 列 数 与 输入 fit0 的 数组 的 列 数 相同 ， 但 是 可 能 具有 不 同 的 行 数 ， 也 
可 能 只 有 一 行 。Predict( 的 输出 形式 与 用 于 训练 的 目标 数组 y 相同 。 





























FA RandomForestRegressor 对 红酒 口感 问题 建 模 

代码 清单 7-1 展示 了 如 何 用 sklearn 的 随机 森林 算法 构建 集成 方法 模型 来 预测 红酒 
口感 。 
代码 首先 从 UCI 数据 仓库 中 读 取 红酒 数据 集 ， 进 行 预 处 理 获得 属性 、 标 签 、 属 性 名 
存 和 人 列表 ;将 列表 转换 为 numpy 数组 形式 ， 此 形式 是 RandomForestRegressor 要 求 的 。 将 
这 些 输 入 对 象 转换 为 numpy 数组 形式 的 一 个 额外 的 好 处 是 可 以 使 用 sklearn 的 train_test_ 
split 构建 训练 和 测试 集 。 代 码 将 random state 设置 为 一 个 特殊 的 整数 值 ， 而 不 是 让 随机 
数 生 成 器 自己 选择 一 个 不 可 重复 的 内 部 值 。 这 样 重复 运行 代码 时 ， 可 以 获得 同样 的 结果 。 
iX E random state 为 固定 的 值 ， 在 开发 阶段 也 为 模型 的 调整 提供 了 便利 ， 和 否则 随机 性 会 
掩盖 所 做 的 改变 。 在 真实 的 模型 训练 阶段 ， 可 将 random state 设 为 缺 省 值 None。 固 定 
random state 值 就 固定 了 测试 集 ， 这 样 重复 的 参数 调整 和 训练 最 终 是 对 测试 数据 集 的 过 度 
训练 。 

代码 的 下 一 步 是 定义 集成 方法 的 不 同 规模 (不 同 的 决策 树 数 目 ) ， 由 此 产生 性 能 曲线 ， 
展示 当 集 成 方法 中 决策 树 的 数目 发 生变 化 时 ， 人 性 能 是 如 何 变化 的 。 为 了 让 性 能 曲线 图 足够 
精确 ， 在 代码 清单 7-1 中 大 约 选择 45 个 不 同 的 决策 树 规模 来 运行 。 选 取 这 么 多 点 运行 是 
有 意义 的 ， 可 以 看 到 决策 树 的 数目 与 误差 清晰 的 关系 曲线 ， 但 是 当 在 脑海 中 已 经 有 了 大 致 
的 印象 后 ， 就 不 需要 跑 这 么 多 点 了 。 在 开发 的 早期 阶段 ， 可 以 尝试 跑 2、3 个 不 同 的 决策 
树 规模 ， 然 后 确定 一 个 比较 好 的 决策 树 规 模 ， 在 以 后 的 绝 大 多 数 时 间 里 都 可 以 按 这 个 规模 
进行 实验 。 

绝 大 多 数 训练 过 程 的 参数 都 在 RandomForestRegressor 的 构造 郴 数 中 设置 。 在 这 个 例 
子 中 构造 函数 的 调用 十 分 简单 。 唯 一 一 个 没有 使 用 缺 省 值 的 参数 就 是 max features, Jt 
数 的 缺 省 值 (None) 会 导致 在 决策 树 的 每 个 节点 都 要 考虑 全 部 的 属性 。 这 意味 着 实际 上 实 
现 的 是 Bagging 方法 ， 因 为 这 里 没有 随机 选择 属性 的 过 程 。 

初始 化 RandomForestRegressor 对 象 后 ， 下 一 步 就 是 调用 fit( 方法 ， 训 练 数据 集 作 为 
其 输入 参数 。 最 后 是 调用 predict) 方法 进行 预测 ， 其 输入 是 测试 数据 集 的 属性 ， 并 将 预测 
值 与 测试 数据 集中 的 标签 比较 。 代 码 用 sklearn.metrics 的 mean. squared error 函数 来 计算 










































































7.1 





预测 均 方 误差 ， 并 将 其 保存 在 一 个 列表 中 ， 结 果 如 图 7-1 所 示 。 
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行 预测 : 均 方 误差 与 集成 方法 规模 的 关系 


最 后 一 个 均 方 误差 值 打印 在 代码 清单 7-1 的 最 后 。 最 后 一 个 均 方 误差 值 只 是 作为 均 方 
误差 的 代表 被 打印 出 来 ， 并 不 代表 最 小 值 。 随 机 森林 产生 近乎 独立 的 预测 ， 然 后 取 它们 的 


平均 值 。 因 为 是 取 平 均值 ， 增 加 更 多 的 决策 树 不 会 导致 过 拟 合 ， 
值 是 统计 上 的 波动 造成 的 ， 不 是 可 重复 的 最 小 值 。 





代码 清单 7-1 


import urllib2 
import numpy 
from sklearn. 
from sklearn import ensemble 
from sklearn.metrics import mean squared error 


import pylab as plot 


f Read wine quality data from UCI website 
target url - 
databases/wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 


因此 图 7-1 曲线 上 的 最 小 





用 RandomForestRegressor 构建 回归 模型 - wineRF.py 


cross validation import train test split 


("http://archive.ics.uci.edu/ml/machine-learning-" 
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xList = [] 
labels = [] 
names = [] 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1]) ) 
remove label from row 


row. pop () 








convert row to floats 





floatRow = [float (num) for num in row] 


xList.append (floatRow) 


nrows = len(xList) 





ncols = len(xList[0]1]) 


X = numpy.array(xList) 
y = numpy.array(labels) 


wineNames - numpy.array (names) 


#take fixed holdout set 30% of data rows 
xTrain, xTest, yTrain, yTest = train test split(X, y, test size-0.30, 


random state-531) 





ftrain Random Forest at a range of ensemble sizes in order to 
#see how the mse changes 
mseOos - [] 


nTreeList = range(50, 500, 10) 








for iTrees in nTreeList: 
depth = None 
maxFeat = 4 #try tweaking 
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wineRFModel = ensemble.RandomForestRegressor(n estimators-iTrees, 





max depth=depth, max features=maxFeat, 


oob score-False, random state-531) 


wineRFModel.fit (xTrain, yTrain) 


#Accumulate mse on test set 








prediction = wineRFModel.predict (xTest) 





mseOos.append(mean squared error(yTest, prediction)) 


print("MSE" ) 





print (mseOos[-1]) 





#plot training and test errors vs number of trees in ensembl 


plot.plot(nTreeList, mseOos) 





plot.xlabel('Number of Trees in Ensemble") 





plot.ylabel('Mean Squared Error') 
#plot.ylim([0.0, 1.1*max(mseOob)]) 
plot.show() 


# Plot feature importance 


featureImportance - wineRFModel.feature importances 





#scale by max importance 

featureImportance = featureImportance / featureImportance.max() 
sorted idx - numpy.argsort(featureImportance) 

barPos = numpy.arange(sorted idx.shape[0]) + .5 
plot.barh(barPos, featurelmportance[sorted idx], align-'center') 
plot.yticks(barPos, wineNames[sorted idx]) 


plot.xlabel('Variable Importance') 





plot.show() 


#printed output 
#MSE 
#0.314125711509 
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可 视 化 随机 森林 回归 模型 的 性 能 
图 7-1 的 曲线 展示 了 随机 森林 算法 的 减少 方差 的 特性 。 随 着 决策 树 数 目的 增加 ， 预 测 
误差 在 下 降 ， 曲 线 的 统计 波动 也 在 减少 。 


为 了 增加 对 算法 的 感觉 ， 可 以 尝试 政变 代码 清单 7-1 中 的 一 些 参 数 ， 然 后 观测 性 能 
曲线 是 如 何 变 化 的 。 增 加 决策 树 的 数目 ， 看 看 是 否 可 以 进一步 减少 误差 ， 如 设置 
nTreeList=range(100,1000,100)。 改 变 决 策 树 深度 ， 看 看 算法 对 决策 enn” 红酒 数 
据 集 大 概 有 1,000 个 实例 ( 行 )， 决 策 树 深度 为 10 或 11 个 时 ， 每 个 叶子 节点 平均 含有 一 个 实例 左右 。 

当 决策 树 深 度 为 6 时 ， 就 会 有 256 个 叶子 节点 ， 这 样 每 个 叶子 节点 平均 有 6 个 实例 。 按 照 这 个 
范围 来 调整 决策 树 的 深度 ， 观 察 其 对 性 能 的 影响 








随机 森林 可 以 估计 每 个 属性 对 预测 准确 率 的 贡献 (重要 性 )。 代 码 清 单 7-1 提取 数据 
成 员 feature importance (存放 了 属性 对 预测 结果 的 贡献 ) , 对 属性 重要 性 归 一 化 为 0 一 1 
的 数值 ， 按 照 重 要 性 对 属性 进行 排序 ， 最 后 形成 条 状 图 ， 如 图 7-2 所 示 。 最 重要 的 属 
性 已 经 归 一 化 为 1.0， 并 处 在 条 状 图 的 最 上 面 。 在 随机 森林 模型 中 ， 酒 精 含量 是 最 重 
要 的 属性 是 不 奇怪 的 。 正 如 在 第 5 章 看 到 的 ， 它 在 惩罚 线性 回归 模型 中 也 是 最 重要 的 
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硫酸 酯 
挥发 性 酸 
柠檬 酸 
总 二 氧化 硫 
SAL 
非 挥发 性 酸 
pH 值 
游离 二 氧化 硫 
残留 糖分 
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变量 的 重要 性 
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7.1.2 用 梯度 提升 预测 红酒 品质 
如 第 6 章 所 述 ， 梯 度 提 升 使 用 误差 最 小 化 的 方法 来 构建 决策 树 ， 而 Bagging 和 随机 森 
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林 是 使 用 减少 方差 的 方法 。 因 为 梯度 提升 法 使 用 二 元 决策 树 作为 基 学 习 器 ， 它 也 共享 了 决 
策 树 相 关 的 参数 。 梯 度 提升 法 由 梯度 决定 下 降 的 方向 ， 因 此 还 需要 步 长 之 类 的 参数 。 而 且 
因为 梯度 提升 法 采用 误差 最 小 化 的 方法 ， 这 也 导致 对 决策 树 深 度 的 设置 具有 不 同 的 原理 和 
选择 。 还 可 以 构建 一 个 随机 森林 和 梯度 提升 的 混合 模型 ， 在 上 层 使 用 梯度 提升 法 ， 对 基 学 
习 器 使 用 随机 森林 的 属性 随机 选择 方法 。 目 前 只 有 在 sklearn 集成 方法 模块 中 可 以 看 到 这 
种 混合 。 

使 用 GradientBoostingRegressor 类 的 构造 函数 

下 面 是 sklearn.ensemble.GradientBoostingRegressor 类 的 构造 函数 。 






































class sklearn.ensemble.GradientBoostingRegressor(loss-'ls', learning _ 
rate-0.1, n estimators-100, subsample-1.0, min samples split-2, min 


samples leaf-1, max depth-3, init-None, random state-None, max features- 





None, alpha-0.9, verbose-0, max leaf nodes-None, warm start-False) 

下 面 介绍 需要 熟悉 的 参数 和 方法 ， 以 及 各 种 参数 的 选择 及 其 权衡 。 

@ Loss 

字符 串 ， 可 选 (MALE “Is” ), 

梯度 提升 法 用 决策 树 来 逼近 整体 损失 函数 的 梯度 。 最 常 使 用 的 整体 损失 项 就 是 误差 平 
方 的 和 (sum squared error) ， 这 个 就 是 通常 的 最 小 二 乘 回归 方法 的 惩罚 项 。 最 小 误差 平方 
和 (Least sum squared error) 是 一 个 很 方便 的 选项 ， 因 为 误差 平方 (squared error) 在 数 
学 上 处 理 比 较 简 洁 。 但 是 对 应 实际 的 问题 ， 其 他 的 损失 函数 可 能 更 合适 。 例 如 ， 笔 者 在 
研究 自动 交易 问题 时 ， 注 意 到 误差 平方 惩罚 项 会 导致 算法 回避 重大 的 损失 ， 但 是 会 接受 
较 小 的 损失 ， 但 是 较 小 的 损失 累积 起 来 也 是 相当 可 观 的 。 采 用 误差 绝对 值 的 和 (Sum of 
absolute value of error) 可 以 取得 更 好 的 性 能 ， 对 自动 交易 问题 更 匹配 。 最 小 平均 绝对 
{H (Least mean absolute value) 通常 对 异常 点 不 敏感 。 梯 度 提 升 法 是 少数 几 个 可 以 自由 
选择 惩罚 函数 的 算法 。 

可 以 取 的 字符 串 值 如 下 。 

e ls; 最 小 均 方 误差 (Least mean squared error) 。 

e lad : 最 小 平均 绝对 误差 (Least mean absolute value of error), 

e huber : 胡 贝 尔 误差 是 两 种 误差 的 混合 : 当 误 差 数 值 较 小 时 ， 取 误差 的 平方 ， 当 

误差 数值 较 大 时 ， 取 误差 的 绝对 值 。 

e quantile: 分 位 数 回归 。 预 测 分 位 数 (由 alpha 参数 指定 )。 

e Learning rate, 

浮 点 数 ， 可 选 ( 缺 省 值 为 0.1)。 
正如 前 面 提 到 的 ， 梯 度 提 升 法 基于 梯度 下 降 法 。Learning_rate 指明 沿 梯度 方向 的 步 
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长 。 如 果 步 长 太 大 ， 会 看 到 误差 迅速 下 降 ， 然 后 迅速 上 升 〈 是 集成 方法 中 决策 树 数 目 
的 函数 )。 如 果 步 长 太 小 ， 则 误差 下 降 得 十 分 缓慢 ， 需 要 训练 更 多 的 决策 树 。Learning_ 
rate 的 最 佳 值 是 依赖 于 问题 的 ， 也 依赖 于 所 选择 的 决策 树 的 深度 。 缺 省 值 0.1 是 相对 比 
较 大 的 值 ,但 是 是 一 个 很 好 的 起 点 。 首先 选用 这 个 值 ,观察 是 否 导致 了 不 稳定 或 者 过 拟 合 ， 
然后 再 按 需 调整 。 

€ N estimators 

整 型 ， 可 选 〈 缺 省 值 为 100)。 

此 参数 指定 集成 方法 中 的 决策 树 数 目 。 如 第 6 章 所 述 ， 也 可 以 把 它 看 作 朝向 梯度 下 降 
的 方向 ， 达 到 误差 最 小 值 所 需 的 步 数 。 也 可 以 看 作 是 增 量 式 和 逼近 所 用 的 步 数 〈 即 训练 模型 
的 数目 )。 因 为 每 一 个 后 续 的 允 近 (每 一 个 后 续 的 决策 树 ) 都 与 learning rate( 学 习 速 度 ) 相 乘 ， 
学 习 速 度 越 大 ， 朝 向 误差 最 小 值 取 得 同样 的 进步 所 需 的 决策 树 就 越 少 。 然 而 〈 正 如 在 学 习 速 
度 小 节 所 讨论 的 那样 ) ， 学 习 速 度 太 高 会 导致 过 拟 合 。 对 于 一 个 新 问题 ， 往 往 需 要 尝试 几 
次 才能 习 得 参数 的 最 佳 取 值 范 围 。 缺 省 值 100 可 以 作为 一 个 很 好 的 起 点 (特别 是 与 学 习 
速度 的 缺 省 值 一 起 联合 使 用 时 ) 。 

@ Subsample 

浮 点 型 ， 可 选 ( 缺 省 值 为 1.0)。 

如 果 与 随机 森林 相似 ， 用 数据 的 抽样 对 决策 树 进 行 训练 ， 则 梯度 提升 法 变 成 了 随机 梯 
度 提升 法 。Friedman (算法 发 明 人 ) 建议 subsample 取 0.5。 这 是 一 个 很 好 的 起 点 。 

€ Max depth 

整 型 ， 可 选 ( 缺 省 值 为 3)。 

就 像 随机 和 森林 ,max_depth 是 集成 方法 中 单个 决策 树 的 深度 。 就 像 第 6 章 的 简单 例子 ， 
随机 森林 需要 决策 树 达 到 一 定 深度 才能 产生 高 精确 度 的 模型 ， 然 而 梯度 提升 通过 持续 关 
注 残 差 ， 使 用 深度 为 1 的 决策 树 ( 叫 作 树 桩 stumps) 就 可 以 获得 高 精确 度 。 梯 度 提升 法 
对 决策 树 深 度 的 需求 是 由 属性 之 间 相 关 程 度 决 定 的 。 如 果 属 性 之 间 相 互 独 立 ， 则 深度 为 1 
的 决策 树 可 以 获得 与 深度 为 2 的 决策 树 相 同 的 性 能 。 通 常 ， 可 先 将 决策 树 的 深度 设 为 1， 
然后 调整 好 其 他 参数 。 再 将 决策 树 的 深度 调整 为 2， 看 看 是 否 会 带 来 性 能 上 的 提升 。 笔 者 
还 从 来 没 遇 到 过 需要 决策 树 深 上 度 为 10 的 问题 。 

@ Max features 

整 型 、 浮 点 型 、 字 符 串 ， 或 者 None, E (AEN None), 

当 查 找 最 佳 分 割 点 时 ， 需 要 考虑 的 属性 的 数目 是 由 max features 值 和 问题 数据 中 属性 
的 总 数 共同 决定 的 。 定 义 属性 的 总 数 为 nFeatures ， 那 么 : 

€ 如 果 max features 是 整数 ， 则 在 每 次 分 割 时 考虑 max_features 个 属性 。 
€ 如 果 max features 是 浮 点 数 ， 则 max features 是 需要 考虑 的 属性 占 全 体 属 性 
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的 百分比 : int(max features*nFeatures), 
€ 可 能 的 字符 串 值 包括 : 


auto max features-nFeatures 





sqrt max features-sqrt (nFeatures) 


log2 max features=1og2 (nFeatures) 





€ 如 果 max features 是 None， 那 么 max features 等 于 nFeatures。 


在 梯度 提升 法 Python 实现 中 ，max_features 起 的 作用 与 随机 森林 中 的 作用 相同 。 它 决 
定 了 在 决策 树 的 每 个 节点 进行 分 割 时 需要 考虑 多 少 个 属性 。 这 使 梯度 提升 法 的 Python 实 
现 具 有 一 个 独特 的 能 力 : 它 可 以 用 随机 森林 作为 基 学 习 器 来 代 蔡 原来 需要 考虑 全 部 属性 








空间 的 决策 树 。 
€ Warm start 
布尔 型 ， 可 选 ( 缺 省 值 为 False)。 
如 果 warm start 设 为 True，fitO 函数 将 从 上 次 训练 停止 的 地 方 开 始 。 
下 面 是 用 到 的 属性 的 描述 。 


€ Feature importances 




















一 个 数组 ， 其 长 度 等 于 数据 集中 属性 的 数目 。 数 组 中 的 值 是 正 的 浮 点 数 ， 表 明了 相应 











属性 对 预测 结果 的 重要 性 。 数 值 越 大 ， 表 明 此 属性 越 重要 。 


€ Train score 





一 个 数组 ， 其 长 度 等 于 集成 方法 中 决策 树 的 数目 。 此 数组 存放 在 训练 阶段 对 决策 树 依 


次 训练 时 的 误差 。 
下 面 是 用 到 的 方法 的 描述 。 
€ Fit(XTrain, yTrain, monitor=None) 














XTrain 和 yTrain 的 形式 与 随机 森林 中 的 一 样 。XTrain 是 一 个 (nInstances*nAttributes) 
numpy 数组 ， 这 里 nInstances 是 训练 数据 集 的 行 数 ，nAttributes 是 属性 的 数目 。yTrain 是 


一 个 存放 训练 数据 集 目 标的 (nInstances *1) numpy 数组 。 对 象 monitor 是 回调 函数 ， 
来 提早 停止 训练 。 

€ Predict(X) 

Predict(x) 由 一 组 属性 和 产生 预测 ，X 的 列 数 (属性 数 ) 与 训练 数据 集 属性 数 一 
X 可 以 有 任意 行 的 数据 。 

@ Staged predict(x) 

此 函数 的 行为 与 predict() 函数 的 行为 类 似 ， 除 了 它 是 可 迭代 的 ， 根 据 梯 度 提 升 法 4 























用 


致 ， 


E. 





一 系列 模型 ， 然 后 根据 模型 产生 一 系列 的 预测 值 。 每 次 调用 都 会 利用 梯度 提升 法 在 已 产生 


的 一 系列 模型 中 增加 一 个 决策 树 ， 然 后 产生 一 个 预测 值 。 
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梯度 提升 法 的 参数 设置 对 初学 者 来 说 可 能 有 些 令 人 困惑 。 对 梯度 提升 法 参数 设置 和 调 
整 的 建议 如 下 。 

(1) 除了 设置 subsample 为 0.5 的 情况 ， 其 他 情况 都 以 缺 省 值 开 始 训练 。 模 型 训练 
完成 后 ， 观 察 模 型 在 测试 数据 (out-of-sample, oos) 下 的 预测 性 能 与 决策 树 数 目的 关系 
曲线 及 其 变化 。 

(2) 如 果 测 试 数据 的 性 能 在 图 的 右 侧 迅速 提高 ， 则 增加 n estimators 或 者 learning rate, 

(3) 如 果 测 试 数据 的 性 能 在 图 的 右 侧 迅速 恶化 ， 则 减少 learning rate, 

(4) 一 旦 测试 数据 的 性 能 曲线 在 整体 都 有 些 改善 〈 或 者 只 有 稍 许 下 降 ) 并 且 在 图 的 右 
侧 基 本 持平 ， 则 尝试 改变 max depth 和 max features, 



































用 GradientBoostingRegressor 实现 回归 模型 
代码 清单 7-2 展示 了 如 何 针 对 红酒 数据 集 建立 梯度 提升 模型 。 








代码 清单 7-2 用 梯度 提升 构建 回归 模型 -wineGBM.py 


import urllib2 

import numpy 

from sklearn.cross validation import train test split 
from sklearn import ensemble 

from sklearn.metrics import mean squared error 


import pylab as plot 


f Read wine quality data from UCI website 
target url - ("http://archive.ics.uci.edu/ml/machine-learning-databases" 
"/wine-quality/winequality-red.csv") 


data = urllib2.urlopen(target url) 


xList - [] 

labels = [] 

names - [] 
firstLine = True 
for line in data: 


if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


#split on semi-colon 


row = line.strip().split(";") 
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#put labels in separate array 
labels.append (float (row[-1]) ) 

#remove label from row 

row.pop() 

#convert row to floats 

floatRow = [float (num) for num in row] 


xList.append (floatRow) 


nrows = len(xList) 





ncols = len(xList[0]) 


X = numpy.array(xList) 
y = numpy.array (labels) 


wineNames - numpy.array (names) 


#take fixed holdout set 30% of data rows 
xTrain, xTest, yTrain, yTest - train test split(X, y, test size-0.30, 


random state-531) 


f Train Gradient Boosting model to minimize mean squared error 


nEst = 2000 





learnRate = 0.01 
subSamp = 0.5 





wineGBMModel - ensemble.GradientBoostingRegressor(n estimators-nEst, 





max depth-depth, 
learning rate-learnRate, 
subsample = subSamp, 


loss='l1s') 


wineGBMModel .fit (xTrain, yTrain) 





# compute mse on test set 





msError = [] 





predictions = wineGBMModel.staged predict (xTest) 


for p in predictions: 





msError.append(mean squared error(yTest, p)) 





print ("MSE" ) 
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print (min (msError) ) 








print (msError.index(min(msError) ) ) 


#plot training and test 

















plot.figure () 

plot.plot(range(1, nEst 
label='Training Set MSE') 

plot.plot(range(1, nEst + 1), msError, 

plot.legend(loc='upper right') 

plot.xlabel('Number of Trees in 








.ylabel('Mean Squared Error!) 








.show() 


# Plot feature importance 


featureImportance = wineGBMModel.f 


errors vs number of tr 


in ensembl 





S 


* 1), wineGBMModel.train score , 





label-'Test Set MSE') 


Ensemble') 





f normalize by max importance 


featureImportance 


idxSorted 


POS 


.barh(barPos, 


bar = 
plot 
plot.yticks (barPos, 
plot.xlabel('Variable Importance') 


plot.subplots adjust (left=0.2, 





plot.show() 
Printed Output: 


for: 





2000 
7 


nEst 


depth 


0.01 
0.5 


learnRate 


subSamp 


E 
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MS 
0.313361215728 
840 
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TH 


or 
oH 


代码 的 第 一 部 分 与 随机 森林 的 处 理 过 














numpy.arange(idxSorted.shape[0]) 


featureImportance[idxSorted], 


right=0.9, 


ature importances | 


featureImportance / featureImportance.max () 


numpy.argsort(featureImportance) 


LEES 


align='center') 


wineNames [idxSorted] ) 


top=0.9, bottom=0.1) 


样 : 读 取 数据 集 ,将 属性 与 目标 (标签 ) 分 离 ， 
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转换 为 numpy 数组 ， 然 后 形成 训练 和 测试 数据 集 。 梯 度 提升 的 训练 序列 更 简单 些 。 随 机 
和 森林 的 代码 用 一 个 循环 来 生成 不 同 n_estimator 值 ( 即 不 同 决策 树 数 目 ) 的 模型 ， 观 察 测 
试 数据 误差 与 决策 树 数 目的 关系 。 梯 度 提 升 法 的 Python 实现 有 一 个 近代 器 (对 于 回归 问 
题 是 staged predict 函数 ,对 于 分 类 问题 是 staged decision function 函数 ) 简化 了 这 个 过 程 。 
使 用 这 些 函数 ， 可 以 训练 一 个 含有 n_estimator 个 决策 树 的 模型 ， 并 且 可 以 产生 所 有 不 同 
规模 (不 会 超过 n_estimator) 下 的 模型 对 应 的 测试 数据 性 能 曲线 〈 即 利用 上 述 的 两 个 迭代 
器 函数 可 以 生成 从 1 到 n. estimator 不 同 决策 树 数目 下 的 预测 值 )。 
评估 梯度 提升 模型 的 性 能 
图 7-3 和 代码 清单 7-2 的 打印 输出 结果 显示 梯度 提升 法 取得 了 与 随机 和 森林 同 级 别 的 
性 能 ， 通 常 是 这 样 。 有 些 问 题 可 能 这 个 方法 表现 较 好 ， 也 有 可 能 是 另外 一 个 方法 表现 较 
好 ， 所 以 需要 两 个 方法 都 尝试 后 才能 确定 。 测 试 数据 误差 在 图 的 最 右边 有 轻微 的 增加 ， 如 
图 7-3 所 示 。 增 加 的 幅度 还 需要 看 具体 数值 。 一 般 情 况 下 ， 这 种 增加 还 不 足以 要 求 减少 
learning_rate， 然 后 重新 训练 。 
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图 7-3 梯度 提升 法 预测 红酒 口感 : 均 方 误差 与 决策 树 数目 的 关系 



































图 7-4 展示 了 属性 的 重要 性 ， 梯 度 提 升 法 实现 了 此 功能 。 与 由 随机 森林 生成 的 属性 重 
要 性 比较 就 可 以 知道 两 者 很 相似 ,但 又 不 完全 相同 。 两 者 都 认为 最 重要 的 属性 是 酒精 含量 ， 
在 前 四 或 前 五 最 重要 的 属性 排名 中 ， 有 些 属性 是 一 致 的 。 
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总 二 氧化 硫 


游离 二 氧化 硫 
非 挥 发 性 酸 
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图 7-4 梯度 提升 法 预测 红酒 口感 ， 各 属性 相对 重要 性 排序 























7.2 用 Bagging 来 预测 红酒 口感 


代码 清单 7-3 展示 了 对 红酒 数据 进行 自 举 取样 (bootstrap sample)， 基 于 取样 样本 
训练 决策 树 ， 将 决策 树 输出 〈 结 果 ) 取 平 均值 作为 模型 最 终 的 输出 〈 结 果 )， 这 个 叫 作 



































Bagging， 这 是 一 个 纯粹 的 减少 方差 的 技术 。 因 此 比较 Bagging、 随 机 森林 和 梯度 提升 三 


者 的 性 


IAN] 
用 十 


十 分 有 意义 的 。 





代码 清单 7-3 ”对 红酒 口感 问题 用 Bagging 构建 回归 模型 ( 自 举 集成 -wineBagging.py 


author | 


= 'mike-bowles' 


import urllib2 


import numpy 


import matplotlib.pyplot as plot 


from sklearn import tree 


from sklearn.tree import DecisionTreeRegressor 


from math import floor 


import random 


# Read wine quality data from UCI website 
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target url = ("http://archive.ics.uci.edu/ml/machine-learning-databases" 
"/wine-quality/winequality-red.csv") 


data - urllib2.urlopen(target url) 


xList - [] 
labels - [] 
names = [] 
firstLine = True 


for line in data: 





if firstLine: 


names = line.strip().split(";") 
firstLine = False 
else: 


Split on semi-colon 

row = line.strip().split(";") 
put labels in separate array 
labels.append (float (row[-1])) 
remove label from row 


row.pop() 











convert row to floats 
floatRow = [float (num) for num in row] 


xList.append (floatRow) 


nrows = len(xList) 





ncols = len(xList[0]) 


ftake fixed test set 30$ of sample 








nSample = int(nrows * 0.30) 

idxTest = random.sample(range(nrows), nSample) 

idxTest.sort() 

idxTrain = [idx for idx in range(nrows) if not(idx in idxTest)] 


#Define test and training attribute and label sets 





xTrain = [xList[r] for r in idxTrain] 
xTest = [xList[r] for r in idxTest] 
yTrain = [labels[r] for r in idxTrain] 
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yTest = [labels[r] for r in idxTest] 


#train a series of models on random subsets of the training data 


#collect the models in a list and check error of composite as list grows 


#maximum number of models to generate 


numTreesMax = 100 


#tree depth - typically at the high end 
treeDepth = 5 


#initialize a list to hold models 
modelList = [] 
predList = [] 


#number of samples to draw for stochastic bagging 
bagFract = 0.5 


nBagSamples - int(len(xTrain) * bagFract) 





for iTrees in range (numTreesMax) : 
idxBag = [] 
for i in range(nBagSamples): 
idxBag.append (random. choice (range (len (xTrain)))) 


TrainBag = [xTrain[i] for i in idxBag] 








yTrainBag = [yTrain[i] for i in idxBag] 


modelList.append (DecisionTreeRegressor (max depth-treeDepth)) 





modelList[-1] .ft (xTrainBag, yTrainBag) 


#make prediction with latest model and add to list of predictions 
latestPrediction = modelList[-1].predict (xTest) 
predList.append(list (latestPrediction) ) 


#build cumulative prediction from first "n" models 
mse = [] 


allPredictions = [] 
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for iModels in range(len(modelList)): 


faverage first "iModels" of the predictions 


prediction = [] 


for iPred in range(len(xTest)): 


prediction.append(sum([predList[i][iPred] for i in 


range(iModels + 1)])/(iModels + 1)) 


allPredictions.append(prediction) 








rrors = [(yTest[i] - prediction[i]) for i in range(len(yTest))] 
mse.append(sum([ for in errors]) / len(yTest)) 
nModels = [i + 1 for i in range (len(modelList))] 


plot.plot (nModels,mse) 


plot.axis('tight') 


plot.xlabel('Number of Models in 


plot.ylabel('Mean Squared 


plot.ylim((0.0, max(mse))) 








plot.show() 





print('Minimum MSE') 


print (min (mse)) 


With treeDepth = 5 
bagFract = 0.5 





Minimum MSE 


0.429310223079 


With treeDepth = 8 
bagFract = 0.5 


Minimum MSE 


0.395838627928 





With treeDepth = 10 








bagFract = 1.0 





Error!) 





Ensemble') 
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#Minimum MSE 


#0.313120547589 


代码 清单 7-3 PHA 3 个 可 调 参 数 。 第 一 个 是 numTreesMax， 此 参数 决定 构建 的 决 
策 树 数目 ， 第 二 个 是 treeDepth ;第 三 个 是 bagFract。 正 如 第 6 章 所 讨论 的 ，Bagging 从 
输入 数据 中 自 举 取样 。 这 种 取样 是 放 回 取样 ， 因 此 有 些 数据 是 重复 的 。 参 数 bagFract 决 
定 取 多 少 样本 。 提 出 此 算法 的 论文 建议 自 举 样 本 数 与 初始 数据 集 的 规模 一 致 ， 这 意味 着 
bagFract=1.0。 代 码 清单 7-3 产生 numTreesMax 个 模型 ， 第 一 个 模型 就 是 第 一 个 决策 树 ， 
第 二 个 模型 就 是 前 二 个 决策 树 的 平均 。 第 三 个 模型 是 前 三 个 决策 树 的 平均 ， 以 此 类 推 。 代 
码 绘制 了 均 方 误差 与 模型 中 决策 树 数目 的 关系 曲线 。 

图 7-5 和 图 7-6 为 两 种 不 同 参数 设置 下 的 结果 。Bagging 集成 方法 应 用 于 红酒 口 
感 数据 集 上 ， 打 印 结果 显示 在 代码 清单 的 最 后 。 图 7-5 为 性 能 与 决策 树 数 目的 关系 
曲线 ， 此 时 决策 树 深 度 为 10， 训 练 用 的 自 举 样本 规模 与 初始 数据 集 规 模 一 样 (bag 
fraction = 1.0)。 在 上 述 参数 设置 条 件 下 ，Bagging 取得 了 与 随机 和 森林、 梯度 提升 同 级 
别 的 性 能 。 
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集成 方法 中 决策 树 数目 
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图 7-5 Bagging FAME 

















决策 树 深度 为 8， 


5 oO 





R: 均 方 误差 与 决策 树 数 














的 关系 ( 决策 树 深度 为 10，bag fraction=1.0 ) 


自 举 数据 规模 是 初始 数据 集 规 模 的 一 半 时 (bag fraction =0.5), 


Bagging 方法 的 性 能 如 图 7-6 所 示 。 如 图 7-6 和 打印 输出 的 结果 所 示 ， 此 参数 选择 导致 性 





7.3 Python 


20 40 60 
集成 方法 中 决策 树 数目 
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7-6 Bagging 方法 预测 红酒 口感 : 误差 与 决策 树 数目 的 关系 ( 决策 树 深度 为 8，bag fraction=0.5 ) 


























7.3 Python 集成 方法 引入 非 数 值 属 性 





非 数 值 属性 是 指 那些 取 某 几 个 离散 非 数值 型 的 属性 。 人 口 普查 记录 就 含有 大 量 的 非 数 




















值 属性 ,“ 已 婚 、 单 身 或 离异 ”就 是 一 个 例子 ， 家 庭 住址 所 在 州 则 是 另外 一 个 例子 。 非 数 
值 属性 可 以 提高 预测 的 准确 性 ， 但 是 Python 集成 方法 实现 需要 数值 型 输入 数据 。 第 4 章 和 第 
5 章 介绍 了 如 何 对 因素 变量 编码 ， 使 其 能 够 引入 惩罚 线性 回归 模型 。 在 此 也 可 以 采用 同样 
的 技术 。 本 节 以 预测 鲍鱼 年 龄 问题 为 例 说 明 如 何 应 用 此 项 技术 。 


7.3.1 ”对 鲍鱼 性 别 属性 编码 引入 Python 随机 森林 回归 方法 

假设 有 一 个 可 以 取 个 值 的 属性 。 例 如 ， 属 性 “美国 的 州 ”就 有 SO 个 取 值 ,“ 婚 姻 状 
况 ” 有 3 个 取 值 。 对 于 一 个 有 个 取 值 的 因素 变量 ， 可 以 创建 n-1 个 新 的 虚拟 属性 。 当 
变量 取 第 i 个 值 时 , 第 i 个 虚拟 属性 置 为 1, 其 他 的 虚拟 属性 置 为 0。 如 果 变量 取 第 个 值 ， 





















































则 所 有 虚拟 变量 都 置 为 0。 鲍鱼 数据 将 对 此 进行 详细 说 明 。 























代码 清单 7-4 展示 了 利用 鲍鱼 的 重量 、 壳 的 尺寸 等 忆 





性 来 训练 随机 森林 模型 ， 然 





后 利用 模型 预测 鲍鱼 的 年 龄 。 此 问题 的 目标 是 基于 各 种 物理 测量 指标 (鲍鱼 各 个 部 
分 的 重量 、 鲍 鱼 的 尺寸 等 ) 来 预测 鲍鱼 的 年 龄 。 预 测 红 酒 口感 的 算法 也 可 以 用 于 这 
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个 回归 问题 。 


代码 清单 7-4 ”随机 森林 方法 预测 鲍鱼 年 龄 -abaloneRF.py 


, author = 'mike bowles' 


import urllib2 

from pylab import * 

import matplotlib.pyplot as plot 

import numpy 

from sklearn.cross validation import train test split 
from sklearn import ensemble 


from sklearn.metrics import mean squared error 


target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/abalone/abalone.data") 
#read abalone data 


data = urllib2.urlopen(target_url) 


xList = [ 
labels = [] 





for line in data: 
#split on semi-colon 


row = line.strip().split(",") 


#put labels in separate array and remove label from row 


labels.append (float (row. pop () ) ) 


#form list of list of attributes (all strings) 


xList.append (row) 





#code three-valued sex attribute as numeric 
xCoded = [] 
for row in xList: 
#first code the three-valued sex variable 
codedSex = [0.0, 0.0] 
if row[0] == 'M': codedSex[0] = 1.0 


if row[0] == 'F': codedSex[1] 
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numRow = [float(row[i]) for i in range(1,len(row))] 
rowCoded = list(codedSex) + numRow 
xCoded.append(rowCoded) 

#list of names for 

abaloneNames = numpy.array(['Sexl', 'Sex2', 'Length', 'Diameter', 
'Height', 'Whole weight', 'Shucked weight', 'Viscera weight', 
"Shell weight', 'Rings']) 

#number of rows and columns in x matrix 

nrows = len(xCoded) 

ncols = len(xCoded[1]) 

#form x and y into numpy arrays and make up column names 

X = numpy.array (xCoded) 

y = numpy.array(labels) 

#break into training and test sets. 

xTrain, xTest, yTrain, yTest - train test split(X, y, test size-0.30, 
random state-531) 

#train Random Forest at a range of ensemble sizes in 

#order to see how the mse changes 

mseOos - [] 

nTreeList = range(50, 500, 10) 

for iTrees in nTreeList: 
depth = None 
maxFeat = 4 #try tweaking 
abaloneRFModel = ensemble.RandomForestRegressor(n estimators-iTrees, 





max depth-depth, max features-maxFeat, 


oob score-False, random state-531) 


abaloneRFModel.fit (xTrain, yTrain) 


#Accumulate mse on test set 





prediction = abaloneRFModel.predict (xTest) 


mseOos.append(mean squared error(yTest, prediction)) 


274 | 第 7 章 用 Python 构建 集成 模型 


print("MSE" ) 





print (mseOos[-1]) 


#plot training and test errors vs number of trees in ensembl 





plot.plot(nTreeList, mseOos) 





plot.xlabel('Number of Trees in Ensemble!) 





plot.ylabel('Mean Squared Error!) 
#plot.ylim([0.0, 1.1*max(mseOob)]) 
plot.show() 


# Plot feature importance 





featureImportance = abaloneRFModel.feature importances _ 


f normalize by max importance 

featureImportance = featureImportance / featureImportance.max () 
sortedIdx = numpy.argsort (featureImportance) 

barPos = numpy.arange(sortedIdx.shape[0]) + .5 
plot.barh(barPos, featureImportance[sortedIdx], align='center') 
plot.yticks(barPos, abaloneNames [sortedIdx] ) 
plot.xlabel('Variable Importance') 


plot.subplots adjust (left=0.2, right=0.9, top=0.9, bottom=0.1) 





plot.show() 


# Printed Output: 
# MSE 
# 4.30971555911 





UBER RS — Jes PE PE, EIA — T RISEHURUB : 雄性 、 雌 性 和 
未 成 年 (一 个 鲍鱼 的 性 别 在 幼年 期 间 是 不 确定 的 )。 因 此 性 别 属 性 是 一 个 三 值 因 素 变 量 。 
在 数据 集中 ， 性 别 属性 是 3 个 字符 变量 : M、 五 和 了。 代码 首先 定义 了 一 个 列表 ， 缺 省 设 
置 为 2 个 浮 点 型 的 0。 如 果 属 性 值 是 M, 则 列表 第 一 个 元 素 的 值 变 为 1.0。 WREE F, 
则 列表 第 二 个 元 素 的 值 变 为 1.0。 否 则 ， 此 列表 就 是 2 个 零 值 〈 即 当 属性 值 是 7 时 )。 然 
后 用 这 个 新 的 两 个 元 素 的 列表 来 代替 原来 的 字符 变量 ， 结 果 用 于 构建 随机 森林 模型 。 


7.3.2 评估 性 能 以 及 变量 编码 的 重要 性 

图 7-7 展示 了 随 着 随机 森林 集成 方法 中 决策 树 数目 的 变化 ， 均 方 误差 是 如 何 减少 的 。 
均 方 误差 最 小 值 为 431。 正 如 第 2 章 关于 鲍鱼 数据 的 统计 信息 所 述 ， 鲍 鱼 年 龄 (鲍鱼 过 
上 的 年 轮 ) 的 标准 差 (standard deviation) 为 3.22， 则 其 方差 为 10.37。 因 此 ， 针 对 此 数据 
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集 ， 随 机 森林 大 约 可 以 预测 年 龄 方差 变化 的 58%。 


4.44 


4.42 


50 100 150 200 250 300 350 400 450 500 
集成 方法 中 决策 树 数目 














图 7-7 ”随机 森林 方法 预测 鲍鱼 年 龄 ， 均 方 误差 与 决策 树 数目 的 关系 
对 于 随机 森林 模型 属性 的 相对 重要 性 如 图 7-8 所 示 。 由 性 别 创建 的 两 个 属性 : 性 别 属 
性 1 和 性 别 属性 2 在 这 个 模型 中 并 不 是 非常 重要 的 。 


的 重量 
































dli 


mE 
全 部 的 重量 
内 脏 的 重量 
去 过 后 的 重量 
直径 


长 度 





性 别 属性 1 


性 别 属性 2 
0.0 0.2 0.4 0.6 0.8 1.0 
属性 重要 性 

















图 7-8 随机 森林 预测 鲍鱼 年 龄 : 属性 相对 重要 性 排序 
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7.3.3 在 梯度 提升 回归 方法 中 引入 鲍鱼 性 别 属性 
梯度 提升 法 对 性 别 变量 的 处 理 与 随机 森林 一 样 。 代 码 清单 7-5 包含 了 训练 梯度 提升 模 
型 的 代码 。 





代码 清单 7-5 ”用 梯度 提升 法 预测 鲍鱼 年 龄 -abaloneGBM.py 


, author = 'mike bowles' 


import urllib2 

from pylab import * 

import matplotlib.pyplot as plot 

import numpy 

from sklearn.cross validation import train test split 
from sklearn import ensemble 


from sklearn.metrics import mean squared error 


target url = ("http://archive.ics.uci.edu/ml/machine-learning-" 
"databases/abalone/abalone.data") 
#read abalone data 


data = urllib2.urlopen(target url) 


xList = [ 
labels = [] 





for line in data: 
#split on semi-colon 


row = line.strip().split(",") 


#put labels in separate array and remove label from row 


labels.append (float (row. pop ()) ) 


#form list of list of attributes (all strings) 


xList.append (row) 


#code three-valued sex attribute as numeric 


xCoded = [] 





for row in xList: 
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#first code the three-valued sex variable 
codedSex = [0.0, 0.0] 

if row[0] == 'M': codedSex[0] = 1.0 

if row[0] == 'F': codedSex[1] 





ll 
nen 
o 


numRow = [float(row[i]) for i in range(1,len(row))] 
rowCoded = list(codedSex) + numRow 


xCoded. append (rowCoded) 


#list of names for 


abaloneNames = numpy.array(['Sexl', 'Sex2', 'Length', 'Diameter', 


'Height', 'Whole weight', 'Shucked weight', 
'Viscera weight', 'Shell weight', 'Rings']) 


#number of rows and columns in x matrix 
nrows = len(xCoded) 


ncols = len(xCoded[1]) 
#form x and y into numpy arrays and make up column names 
X = numpy.array (xCoded) 


y = numpy.array (labels) 


#break into training and test sets. 
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xTrain, xTest, yTrain, yTest = train test split(X, y, test size-0.30, 


random state-531) 


#instantiate model 
nEst - 2000 

depth = 5 
learnRate = 0.005 
maxFeatures - 3 


subsamp = 0.5 





abaloneGBMModel - ensemble.GradientBoostingRegressor(n estimators-n 





max depth-depth, learning rate-learnRate, 





max features-maxFeatures,subsample-subsamp, 


loss-'ls"') 





Est, 
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#train 
abaloneGBMModel .fit (xTrain, yTrain) 
# compute mse on test set 
msError = [] 
predictions = abaloneGBMModel.staged decision function (xTest) 


for p in predictions: 


ms 





print("MSE" ) 








print (min (msError)) 


print (ms 





#plot training and test er 








.figure () 


t.plot(range(1, 


n 


Est 十 


label='Training Set MS 


.plot (range (1, 


igi 








Est + 





.legend (loc='upper rig 


Error.append(mean squared error(yTest, p)) 





Error.index (min (msError))) 





rors vs number of trees in ensembl 


1), abaloneGBMModel.train score , 


E', linestyle=":") 





1), msError, label='Test Set MSE') 





.xlabel('Number of Trees in Ensemble') 





.ylabel('Mean Squared 


. show () 


# Plot feature importance 


featureImportance 


abalon 





Error') 





GBMModel.feature importances _ 


f normalize by max importance 


fea 


ureImportance = 


featurelmportance / featureImportance.max() 


idxSorted = numpy.argsort(featureImportance) 


bar 


plot 
plot 
plot 
plot 


plo 


D 





os = numpy.arange(idxSorted.shape[0]) + .5 


-barh(barPos, featureImportance[idxSorted], align='center') 


.yticks (barPos, 


abaloneNames[idxSorted]) 


.xlabel('Variable Importance!) 


.subplots adjust(left-0.2, right-0.9, top-0.9, bottom-0.1) 


.Show () 


# Printed Output: 


# for Gradient Boosting 
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nEst = 2000 
depth = 5 
learnRate = 0.003 





maxFeatures = Non 





subsamp = 0.5 


MSE 
4.22969363284 
1736 





for Gradient Boosting with RF base learners 
nEst = 2000 
depth = 5 





learnRate = 0.005 
maxFeatures = 3 
subsamp = 0.5 


MSE 
4.27564515749 
1687 











7.3.4 梯度 提升 法 的 性 能 评价 以 及 变量 编码 的 重要 性 

训练 和 预测 中 的 注意 事项 如 下 。 

(1) 查看 梯度 提升 法 中 各 属性 的 重要 性 排名 ， 看 看 编码 后 的 性 别 属性 是 否 重要 。 

(2) 查看 将 随机 森林 基 学 习 器 引入 梯度 提升 的 Python 实现 。 这 会 带 来 性 能 提升 还 是 
下 降 ? 让 梯度 提升 法 使 用 随机 森林 基 学 习 央 只 需要 改变 max. features 参数 ， 将 其 从 None 
变 成 一 个 小 于 属性 总 数目 的 一 个 整数 ， 或 者 是 小 于 1.0 的 一 个 浮 点 数 。 当 max featues i 
H None 时 ， 在 决策 树 生长 的 过 程 中 ， 在 每 个 节点 寻找 最 佳 的 属性 以 分 割 数 据 时 ， 全 部 9 
个 属性 是 都 要 考虑 的 。 当 max features 设 为 小 于 9 的 整数 ， 在 每 个 节点 进行 数据 分 割 时 ， 
是 随机 选择 max_features 个 属性 来 考虑 的 。 

代码 清单 7-5 的 输出 结果 显示 在 代码 清单 的 最 后 。 通 过 均 方 误差 可 以 看 出 随机 森林 和 
梯度 提升 对 鲍鱼 年 龄 预测 问题 来 说 性 能 上 没有 显著 的 差异 。 梯 度 提升 法 使 用 简单 的 决策 树 
还 是 使 用 随机 森林 作为 基 学 习 器 对 性 能 来 说 也 没有 显著 的 差异 。 

采用 简单 的 决策 树 还 是 随机 森林 作为 基 学 习 器 ， 从 预测 误差 和 集成 方法 规模 的 关系 曲 
线 上 来 看 也 几乎 没有 差别 ， 这 个 从 图 7-9 一 图 7-11 之 间 的 对 比 就 可 以 看 出 。 
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图 7-10 和 
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7-9 梯度 提升 法 预测 鲍鱼 年 龄 ; 均 方 误差 与 决策 树 数目 的 关系 
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7-10 梯度 提升 法 预测 鲍鱼 年 龄 : 各 属性 相对 重要 性 排序 























图 7-12 分 别 展 示 了 基于 简单 决策 树 和 随机 森林 的 梯度 提升 法 属性 的 相对 习 





pap 

















要 性 的 排名 。 两 者 之 间 唯 一 的 差别 就 是 属性 “内 脏 的 重量 ”和 “高 度 ”( 第 4 和 第 5 个 最 
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重要 属性 ) 互 换 了 人 位置。 相似 地 ， 随 机 森林 中 属性 的 重要 性 排名 和 这 两 个 梯度 提升 法 的 也 
几乎 没有 差别 。 
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图 7-11 基于 随机 森林 基 学 习 器 的 梯度 提升 法 预测 鲍鱼 年 龄 : 均 方 误差 与 决策 树 数 目的 关系 
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7-12 ”使 用 随机 森林 基 学 习 器 的 梯度 提升 法 预测 鲍鱼 年 龄 : 各 属性 相对 重要 性 排名 
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有 看 法 认为 ， 随 机 森林 适合 于 规模 很 大 且 很 稀 朴 的 属性 空间 ， 如 文本 挖掘 问 题 。 下 节 
主要 比较 这 两 种 算法 在 分 类 问题 上 的 表现 : 利用 声 纳 输出 将 岩石 和 水 雷 区 分 开 来 。 这 个 
问题 有 60 个 属性 ， 虽 然 不 如 文本 挖 据 问题 的 属性 种 类 多 ,但 是 可 能 会 展示 出 这 两 种 梯度 
提升 法 (基于 二 元 决策 树 的 梯度 提升 法 和 基于 随机 森林 基 学 习 器 的 梯度 提升 法 ) 在 性 能 
的 差异 。 





























7.4 用 Python 集成 方法 解决 二 分 类 问题 


此 节 包 含 两 个 基本 分 类 问题 : 二 分 类 问题 和 多 类 别 分 类 问题 。 二 分 类 问题 上 只 有 两 种 
输出 可 能 。 输 出 可 以 是 “点 击 广告 ”或 者 “不 点 击 广告 "。 这 里 以 岩石 vs. 水 雷 问题 为 例 ， 
利用 声 纳 返 回信 号 判断 声 纳 扫 描 的 是 岩石 还 是 水 雷 。 

多 类 别 分 类 问题 是 指 有 超过 2 个 可 能 的 输出 。 用 根据 玻璃 化 学 成 分 对 玻璃 样本 进行 分 
类 的 问题 来 说 明 Python 集成 方法 是 如 何 解决 此 类 问题 的 。 


7.4.1 用 Python 随机 森林 方法 探测 未 爆炸 的 水 雷 

下 面 列 出 了 RandomForestClassifier 类 的 构造 郴 数 及 其 参数 。RandomForestClassifier 
的 参数 绝 大 多 数 与 RandomForestRegressor 的 一 样 。RandomForestRegressor 的 参数 在 
用 RandomForestRegressor 对 红酒 口感 进行 预测 的 章节 中 已 进行 了 讨论 。 这 里 只 强调 
RandomForestClassifier 中 的 不 同 元 素 。 
第 一 个 不 同 是 用 于 判断 分 割 点 质量 的 标准 。 回 顾 第 6 章 中 决策 树 的 训练 过 程 ， 需 要 尝 
试 所 有 可 能 的 属性 ， 针 对 每 个 属性 尝试 所 有 可 能 的 分 割 点 ， 然 后 从 中 找 出 最 佳 的 属性 及 
其 分 割 点 。 对 于 回归 决策 树 ， 分割 点 的 质量 是 由 平方 误差 和 (sum squared error) 决定 的 。 
但 是 平方 误差 和 对 于 分 类 问题 就 不 起 作用 了 ， 需 要 类 似 误 分 类 率 的 指标 来 描述 。 

下 面 是 sklearn.ensemble.RandomForestClassifier 类 的 构造 函数。 







































































Sklearn.ensemble.RandomForestClassifier(n estimators-10, criterion- 'gini', 
max depth-None, min samples split-2, min samples leaf-1, max features-'auto', 


max leaf nodes-None, bootstrap-True, oob score- False, n jobs-1, random 





state-None, verbose-0, min density-None, compute importances-None) 
下 面 是 对 参数 的 描述 。 
€ Criterion 
字符 串 ， 可 选 ( 缺 省 值 为 “gini”)。 
可 能 的 取 值 如 下 。 
Gini; 利用 基尼 不 纯度 (Gini impurity), 
Entropy : 利用 基于 炉 的 信息 增益 。 
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若 想 获得 这 两 种 评价 方法 的 更 多 信息 ， 可 以 访问 wikipedia 关于 二 元 决策 树 的 网 页 
(http://en.wikipedia.org/wiki/Decision tree learning)。 针 对 目前 这 个 具体 实例 ， 这 两 者 对 集 
成 方法 性 能 的 评价 并 没有 太 大 的 差异 。 

当 训 练 数据 终结 于 决策 树 的 叶子 节点 时 ， 叶 子 节点 含有 属于 不 同类 别 的 数据 ， 则 根据 
叶子 节点 中 不 同类 别 的 数据 所 占 的 百分比 ， 分 类 决策 树 自然 就 可 以 得 到 数据 属于 某 个 类 别 
的 概率 。 依 赖 于 具体 的 应 用 ， 可 能 想 直 接 获得 上 述 的 概率 ， 或 者 想 直 接 将 叶子 节点 中 所 
占 数据 最 多 的 类 别 作 为 预测 值 返 回 。 如 果 在 获得 预测 结果 的 同时 想 要 调整 阐 值 ， 则 需要 
获得 概率 值 。 为 了 生成 曲线 下 面积 (area under the curve，AUC)， 可 能 想 获 得 接收 者 操作 
特征 曲线 (receiver operating curve, ROC) 及 其 概率 以 保证 精确 度 。 如 果 想 计算 误 分 类 率 ， 
则 需要 将 概率 转换 为 类 别 的 预测 。 

下 面 是 对 方法 的 描述 。 

€ Fit( X, y, sample weight-None) 

随机 森林 分 类 版 本 惟一 的 不 同 在 于 标签 y 的 特征 。 对 于 分 类 问题 ， 标 签 的 取 值 为 0 到 
类 别 数 减 1 的 整数 。 对 于 二 分 类 问题 ， 标 签 的 取 值 是 0 或 1。 对 于 有 nClass 个 不 同类 别 的 
多 类 别 分 类 问题 ， 标 签 是 从 0 到 nClass-1 的 整数 。 

€ Predict(X) 

对 于 属性 矩阵 (二 维 的 numpy 数组 ) X， 此 函数 产生 所 属 类 别 的 预测 。 它 生成 一 个 单 
列 的 数组 ， 行 数 等 于 X 的 行 数 。 每 个 元 素 是 预测 的 所 属 类 别 ， 不 管 问题 是 二 分 类 问题 还 
是 多 类 别 分 类 问题 ， 都 是 一 样 的 。 

€ Predict proba(X) 

这 个 版 本 的 预测 函数 产生 一 个 二 维 数 组 。 行 数 等 于 X 的 行 数 。 列 数 就 是 预测 的 类 别 
7k (对 于 二 分 类 问题 就 是 2 列 ) 。 每 行 的 元 素 就 是 对 应 类 别 的 概率 。 

€ Predict log proba(X) 

这 个 版 本 的 预测 函数 产生 一 个 与 predict proba 相似 的 二 维 数组 。 但 是 显示 的 不 是 所 属 
类 别 的 概率 ， 而 是 概率 的 log 值 。 


7.4.2. 构建 随机 森林 模型 探测 未 爆炸 水 雷 

代码 清单 7-8 展示 了 如 何 使 用 声 纳 数据 构建 随机 森林 模型 来 预测 未 爆炸 的 水 雷 。 
数据 的 预 处 理 和 训练 的 过 程 与 第 6 章 和 本 章 前 面 的 随机 森林 的 例子 都 很 相似 。 不 同 
之 处 主要 在 于 这 是 一 个 分 类 问题 。 首 先 代 码 将 标签 从 M 和 R 转换 成 了 0 和 1。 这 是 
RandomForestClassifer 对 输入 数据 的 要 求 。 其 次 训练 完成 后 ， 在 测试 数据 集 上 评价 
性 能 阶段 。 对 于 二 分 类 问题 ， 评 价 标准 可 以 选择 ROC 曲线 下 面积 (AUC) ， 或 者 误 
分 类 率 。 如 果 可 能 的 话 ， 笔 者 通常 倾向 于 使 用 AUC， 因 为 它 能 给 出 整体 的 性 能 评价 。 
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为 了 计算 AUC， 使 用 predict_proba0) 函数 。 如 果 预 测 输出 为 所 属 的 类 别 ， 则 不 可 能 
获得 一 个 有 用 的 ROC 曲线 〈 更 准确 地 说 , 计算 出 的 ROC 曲线 只 有 3 个 点 ,两 端 各 1 个 点 ， 
中 间 1 个 点 )。sklearm metric 工具 包 使 得 AUC 的 计算 十 分 简单 ， 只 需要 几 行 代码 。 代 码 
将 结果 累积 存 人 一 个 列表 , 然后 绘 出 AUC 性 能 与 决策 树 数目 的 关系 曲线 图 。 代 码 清单 7-6 
绘制 了 AUC 与 决策 树 数目 的 关系 图 、30 个 最 重要 属性 的 相对 重要 性 排序 、 最 大 集成 规模 
方法 的 ROC 曲线 图 。 代 码 的 最 后 部 分 选取 3 个 不 同 的 阔 值 ， 打 印 输出 针对 每 个 阔 值 的 混 
MEPE (Confusion Matrix), PIEJ 3 个 四 分 位 数 ， 结 果 显示 了 当 逆 值 从 一 个 分 位 数 转移 
到 另外 一 个 分 位 数 时 ， 假 阳性 、 假 阴性 是 如 何 变化 的 。 



























































代码 清单 7-6 ”随机 森林 分 类 岩石 与 水 雷 -rocksVMinesRF.py 


, author = 'mike bowles' 


import urllib2 

from math import sqrt, fabs, exp 

import matplotlib.pyplot as plot 

from sklearn.cross validation import train test split 
from sklearn import ensemble 

from sklearn.metrics import roc auc score, roc curve 


import numpy 


#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data - urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList - [] 


for line in data: 
fsplit on comma 
row = line.strip().split(",") 


xList.append(row) 


#separate labels from attributes, convert from attributes from 


#string to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 
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for row in xList: 
lastCol = row.pop() 
if lastCol == "M": 
labels.append (1) 
else: 
labels.append(0) 
attrRow = [float(elt) for elt in row] 
xNum.append (attrRow) 


#number of rows and columns in x matrix 
nrows = len (xNum) 


len (xNum[1]) 


ncols 


#form x and y into numpy arrays and make up column names 
X = numpy.array (xNum) 
y = numpy.array (labels) 


rocksVMinesNames = numpy.array(['V' + str(i) for i in range (ncols)]) 


#break into training and test sets. 
xTrain, xTest, yTrain, yTest - train test split(X, y, test size-0.30, 


random state-531) 


auc = [] 
nTreeList = range(50, 2000, 50) 


for iTrees in nTreeList: 








depth = None 
maxFeat = 8 #try tweaking 





rocksVMinesRFModel = ensemble.RandomForestClassifier(n estimators- 
iTrees, max depth-depth, max features- 
maxFeat, oob score-False, random state-531) 


rocksVMinesRFModel.fit (xTrain, yTrain) 


#Accumulate auc on test set 
prediction - rocksVMinesRFModel.predict proba (xTest) 
aucCalc - roc auc score(yTest, prediction[:,1:2]) 


auc.append (aucCalc) 


print ("AUC" ) 
print (auc[-1]) 


286 | 第 7 章 用 Python 构建 集成 模型 


#plot training and test errors vs number of trees in ensembl 





plot.plot(nTreeList, auc) 





plot.xlabel('Number of Trees in Ensemble') 
plot.ylabel('Area Under ROC Curve - AUC") 
#plot.ylim([0.0, 1.1*max(mseOob)]) 
plot.show() 


# Plot feature importance 





featureImportance = rocksVMinesRFModel.feature importances __ 


f normalize by max importance 


featureImportance = featureImportance / featureImportance.max () 


#plot importance of top 30 

idxSorted = numpy.argsort(featureImportance) [30:60] 

idxTemp = numpy.argsort (featureImportance) [::-1] 

print (idxTemp) 

barPos = numpy.arange(idxSorted.shape[0]) + .5 
plot.barh(barPos, featureImportance[idxSorted], align='center') 
plot.yticks (barPos, rocksVMinesNames [idxSorted] ) 
plot.xlabel('Variable Importance') 

plot.show() 


#plot best version of ROC curve 
fpr, tpr, thresh - roc curve(yTest, list(prediction[:,1:2])) 
ctClass = [i*0.01 for i in range(101)] 


plot.plot(fpr, tpr, linewidth-2) 
plot.plot(ctClass, ctClass, linestyle-':') 
plot.xlabel('False Positive Rate') 
plot.ylabel('True Positive Rate') 
plot.show() 


#pick some threshold values and calc confusion matrix for 


#best predictions 


#notice that GBM predictions don't fall in range of (0, 1) 
#pick threshold values at 25th, 50th and 75th percentiles 
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idx25 = int(len(thresh) * 0.25) 
idx50 = int(len(thresh) * 0.50) 
idx75 = int(len(thresh) * 0.75) 











#calculate total points, total positives and total negatives 
totalPts = len(yTest) 

P = sum(yTest) 

N = totalPts - P 


print('') 


print('Confusion Matrices for Different Threshold Values") 





#25th 

TP = tpr[idx25] * P; FN = P - TP; FP = fpr[idx25] * N; TN = N - FP 
print('') 

print('Threshold Value = ', thresh[idx25]) 

print('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 

print ('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 

#50th 


TP = tpr[idx50] * P; FN = P - TP; FP = fpr[idx50] * N; TN = N - FP 





prunt('") 

print('Threshold Value = ', thresh[idx50]) 
print('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 
print('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 
#75th 


TP = tpr[idx75] * P; FN = P - TP; FP = fpr[idx75] * N; TN = N - FP 








print('') 

print('Threshold Value = ', thresh[idx75]) 
print('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 
print('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 


Printed Output: 


AUC 
0.950304259635 


Confusion Matrices for Different Threshold Values 
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('Threshold Value = ', 0.76051282051282054) 
('TP = ', 0.25396825396825395, 'FP = ', 0.0) 
("FN = ', 0.2857142857142857, 'TN = ', 
('Threshold Value = ', 0.62461538461538457) 
('TP = ', 0.46031746031746029, 'FP = ', 
(EN = ', 0.079365079365079361, 'TN = ', 
('Threshold Value = ', 0.46564102564102566) 
(TP = ', 0.53968253968253965, 'FP = ', 
("FN = ', 0.0, 'TN = ', 0.23809523809523808) 








7.4.3 ”随机 森林 分 类 器 的 性 能 
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图 7-13 为 AUC 与 决策 树 数目 的 关系 图 。 此 图 是 以 往 看 过 的 均 方 误差 或 误 分 类 错误 与 
决策 树 数目 关系 图 的 倒置 。 对 于 均 方 误差 和 误 分 类 错误 , 值 越 小 越 好 。 对 于 AUC 来 说 ,1.0 
是 相当 完美 的 ， 但 是 0.5 就 很 差 了 。 因 此 ，AUC 值 越 大 越 好 ， 不 是 寻找 曲线 中 的 波 谷 ， 














而 是 找 波峰 。 图 7-13 展示 在 | 











1 线 的 左 侧 出 现 了 一 个 波峰 。 然 而 ,因为 随机 森林 只 减少 方差 ， 











不 会 过 拟 合 ， 因 此 波峰 也 可 以 归功 于 随机 的 波动 。 正 像 本 章 早 期 的 回归 问题 ， 











包含 所 有 决策 树 的 模型 ， 其 性 能 是 图 中 最 右 的 点 。 
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7-13 ”随机 森林 探测 未 爆炸 水 雷 . AUC 与 决策 树 数 

















最 佳 模 型 是 


2000 


的 关系 
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图 7-14 是 最 重要 的 前 30 个 属性 的 重要 性 排名 。 在 水 雷 检测 的 问题 中 ， 不 同 的 属性 对 
应 不 同 频率 的 声 纳 信号 ， 即 不 同 波长 的 信号 。 如 果 要 求 设计 一 个 机 器 学 习 系 统 来 解决 这 个 
问题 ， 下 一 步 就 是 确定 这 些 属性 对 应 的 波长 ， 确 定 波 长 与 水 雷 和 岩石 在 不 同 维度 上 的 对 应 
关系 。 这 样 可 以 加 深 对 模型 的 理解 。 














0.0 0.2 0.4 0.6 0.8 1.0 
属性 重要 性 











图 7-14 ”随机 森林 探测 未 爆炸 水 雷 ， 各 属性 相对 重要 性 排名 


此 模型 的 AUC 值 相当 高 ， 其 ROC 曲线 表现 也 相当 好 。 虽 然 还 达 不 到 左上 角 ， 但 也 
十 分 接近 。 


7.4.4 用 Python 梯度 提升 法 探测 未 爆炸 水 雷 

代码 清单 7-7 为 scikitlearn 中 梯度 提升 法 的 构造 函数 。 绝 大 多 数 GradientBoosting 
Classifer 的 参数 和 方法 与 GradientBoostingRegressor 的 相同 。 下 面 主要 描述 其 不 同 的 参数 
和 方法 。 

下 面 是 sklearn.ensemble.GradientBoostingClassifier 类 的 构造 函数 。 
































sklearn.ensemble.GradientBoostingClassifier (loss='deviance', learning_ 
rate-0.1, n estimators-100, subsample-1.0, min samples split-2, 


min samples leaf-1, max depth-3, init-None, random state-None, 








max features-None, verbose-0, max leaf nodes-None, warm start-False) 


290 | 第 7 章 ， 用 Python 构建 集成 模型 




















下 面 是 对 参数 的 描述 。 

@ loss 

deviance “对 于 分 类 问题 ，deviance 是 缺 省 的 ， 也 是 唯一 的 选项 。 
下 面 是 对 方法 的 描述 。 














€ fit (X,y , monitor-None) 

对 于 分 类 问题 ， 其 不 同 点 只 在 于 标签 y 的 不 同 。 对 应 分 类 问题 ， 标 签 是 0 到 类 别 总 数 
减 1 的 一 个 整数 。 对 于 二 分 类 问题 ， 标 签 值 为 0 或 者 1。 对 于 多 类 别 分 类 问题 ， 如 果 共 有 
nClass 个 不 同 的 类 别 ， 则 标签 取 值 为 0 ~ nClass-1。 

€ decision function( X) 

梯度 提升 分 类 器 实际 上 是 回归 决策 树 的 集合 ， 会 产生 与 所 属 类 别 的 概率 相关 的 实数 估 
计 值 。 这 些 佑 计 值 还 需要 经 过 反 logistic 函数 将 其 转换 为 概率 。 转 换 前 的 实数 估计 值 可 通 
过 此 函数 获得 ， 对 这 些 估 计 值 的 使 用 就 像 ROC 曲线 计算 中 使 用 概率 那样 简单 。 

€ predict(X) 

此 函数 预测 所 属 类 别 。 

€ predict proba(X) 

此 函数 预测 所 属 类 别 的 概率 。 它 对 于 每 个 类 别 有 一 列 概率 值 。 对 于 二 分 类 问题 有 两 列 。 
对 于 多 类 别 分 类 问题 ， 共 有 nClass 列 。 

上 述 函 数 的 阶段 性 (staged) 版 本 是 可 迭代 的 ， 产 生 与 决策 树 数目 相同 的 结果 (也 与 
训练 过 程 中 执行 的 步 数 一 致 ) 。 

€ staged decison function(X) 

此 为 decision 函数 的 可 和 迭代 版 本 。 

€ staged predict(X) 

此 为 predict 函数 的 可 迭代 版 本 。 

€ staged predict proba(X) 

此 为 predict proba 函数 的 可 迭代 版 本 。 

代码 清单 7-7 使 用 sklearn 的 GradientBoostingClassifier 完成 探测 未 爆炸 水 雷 的 任务 。 












































代码 清单 7-7 梯度 提升 法 分 类 岩石 与 水 雷 -rocksVMinesGBM.py 


, author = 'mike bowles' 


import urllib2 
from math import sqrt, fabs, exp 


import matplotlib.pyplot as plot 
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from sklearn.cross validation import train_test_split 
from sklearn import ensemble 
from sklearn.metrics import roc auc score, roc curve 


import numpy 


#read data from uci data repository 
target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/undocumented/connectionist-bench/sonar/sonar.all-data") 


data = urllib2.urlopen(target url) 


#arrange data into list for labels and list of lists for attributes 


xList - [] 


for line in data: 
#split on comma 
row = line.strip().split(",") 


xList.append(row) 


#Sseparate labels from attributes, convert from attributes from 


#string to numeric and convert "M" to 1 and "R" to 0 


xNum = [] 
labels = [] 


for row in xList: 
lastCol = row.pop() 
if lastCol == "M": 
labels.append (1) 
else: 
labels.append(0) 
attrRow = [float(elt) for elt in row] 


xNum.append (attrRow) 
#number of rows and columns in x matrix 
nrows = len(xNum) 


ncols = len(xNum[1]) 


#form x and y into numpy arrays and make up column names 
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X = numpy.array(xNum) 
y = numpy.array(labels) 


rockVMinesNames = numpy.array(['V' + str(i) for i in range (ncols)]) 


#break into training and test sets. 
xTrain, xTest, yTrain, yTest = train test split(X, y, test size-0.30, 


random state-531) 


#instantiate model 
nEst = 2000 

depth = 3 
learnRate - 0.007 











maxFeatures - 20 

rockVMinesGBMModel - ensemble.GradientBoostingClassifier( 
n estimators-nEst, max depth-depth, 
learning rate-learnRate, 
max features-maxFeatures) 

#train 


rockVMinesGBMModel.fit(xTrain, yTrain) 


# compute auc on test set as function of ensemble size 
auc = [] 
aucBest = 0.0 
predictions = rockVMinesGBMModel.staged decision function (xTest) 
for p in predictions: 
aucCalc = roc_auc_score(yTest, p) 


auc.append (aucCalc) 


#capture best predictions 
if aucCalc > aucBest: 
aucBest = aucCalc 


pBest =p 
idxBest = auc.index (max (auc) ) 


fprint best values 
print("Best AUC" ) 
print (auc[idxBest] ) 

print ("Number of Trees for Best AUC") 


( 
( 
( 
(idxBest) 
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#plot training deviance and test auc's vs number of trees in ensembl 
plot.figure () 


plot.plot(range(1, nEst + 1), rockVMinesGBMModel.train score , 





label='Training Set Deviance', linestyle=":") 








plot.plot(range(1, nEst + 1), auc, label='Test Set AUC') 
plot.legend(loc='upper right') 








plot.xlabel('Number of Trees in Ensemble!) 





plot.ylabel('Deviance / AUC!) 








plot.show() 


# Plot feature importance 


featureImportance = rockVMinesGBMModel.feature importances _ 


# normalize by max importance 


featureImportance = featureImportance / featureImportance.max () 


#plot importance of top 30 


idxSorted = numpy.argsort (featureImportance) [30:60] 


barPos = numpy.arange (idxSorted.shape[0]) + .5 
plot.barh(barPos, featureImportance[idxSorted], align='center') 
plot.yticks (barPos, rockVMinesNames [idxSorted] ) 
plot.xlabel('Variable Importance') 

plot.show() 


#pick threshold values and calc confusion matrix for best predictions 


#notice that GBM predictions don't fall in range of (0, 1) 


#plot best version of ROC curve 
fpr, tpr, thresh - roc curve(yTest, list(pBest)) 
ctClass = [i*0.01 for i in range(101)] 


plot.plot(fpr, tpr, linewidth-2) 
plot.plot(ctClass, ctClass, linestyle=':') 
plot.xlabel('False Positive Rate') 
plot.ylabel('True Positive Rate') 
plot.show() 


fpick threshold values and calc confusion matrix for best predictions 
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#notice that GBM predictions don't fall in range of (0, 1) 
#pick threshold values at 25th, 50th and 75th percentiles 








idx25 = int(len(thresh) * 0.25) 
idx50 = int(len(thresh) * 0.50) 
idx75 = int(len(thresh) * 0.75) 





#calculate total points, total positives and total negatives 


totalPts = len(yTest) 
P = sum(yTest) 

N = totalPts - P 
print('!) 


print('Confusion Matrices for Different Threshold Values ' ) 











#25th 

TP = tpr[idx25] * P; FN = P- TP; FP = fpr[idx25] * N; TN = 
print('') 

print('Threshold Value = ', thresh[idx25]) 

print('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 
print('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 

#50th 

TP = tpr[idx50] * P; FN = P - TP; FP = fpr[idx50] * N; TN 
print('') 

print('Threshold Value = ', thresh[idx50]) 

print('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 
print('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 

#75th 

TP = tpr[idx75] * P; FN = P - TP; FP = fpr[idx75] * N; TN 
printet!) 

print('Threshold Value = ', thresh[idx75]) 

print ('TP = ', TP/totalPts, 'FP = ', FP/totalPts) 

print ('FN = ', FN/totalPts, 'TN = ', TN/totalPts) 

# Printed Output: 

# 

# Best AUC 


# 0.936105476673 
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Number of Trees for Best AUC 
1989 


Confusion Matrices for Different Threshold Values 
('Threshold Value = ', 6.2941249291909935) 


(‘TP = ', 0.23809523809523808, 'FP = ', 0.015873015873015872) 
(‘FN = ', 0.30158730158730157, 'TN = ', 0.44444444444444442) 





(‘Threshold Value = ', 2.2710265370949441) 
(‘TP = ', 0.44444444444444442, 'FP = ', 0.063492063492063489) 
(‘FN = ', 0.095238095238095233, “IN = ', 0.3968253968253968) 





("Threshold Value = ', -3.0947902666953317) 
(‘TP = ', 0.53968253968253965, 'FP = ', 0.22222222222222221) 
(‘FN = ', 0.0, 'TN = ', 0.23809523809523808) 








Printed Output with max features = 20 (Random Forest base learners): 


Best AUC 

0.956389452333 

Number of Trees for Best AUC 
1426 


Confusion Matrices for Different Threshold Values 
('Threshold Value = ', 5.8332200248698536) 


(‘TP = ', 0.23809523809523808, "FP = ', 0.015873015873015872) 
(‘FN = ', 0.30158730158730157, 'TN = ', 0.44444444444444442) 





(‘Threshold Value = ', 2.0281780133610567) 
(‘TP = ', 0.47619047619047616, 'FP = ', 0.031746031746031744) 
("FN = ', 0.063492063492063489, 'TN = ', 0.42857142857142855) 





(‘Threshold Value = ', -1.2965629080181333) 
(‘TP = ', 0.53968253968253965, "FP = ', 0.22222222222222221) 
(‘FN = ', 0.0, 'TN = ', 0.23809523809523808) 

















此 代码 的 流程 与 随机 森林 的 基本 相同 。 一 个 不 同 点 是 梯度 提升 法 会 过 拟 合 ， 因 此 当 
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代码 累积 计算 AUC 并 将 其 存 人 一 个 列表 准备 绘制 时 ， 程 序 同时 持续 跟踪 AUC 的 最 佳 值 。 
其 最 佳 值 用 来 生成 ROC 曲线 、 假 阳性 、 假 阴性 等 指标 (如 图 7-15 Stas). ASAT 
梯度 提升 方法 运行 了 2 次 , 一 次 是 使 用 普通 的 决策 树 , 另外 一 次 是 使 用 随机 森林 基 学 习 器 。 
两 者 都 获得 了 很 好 的 分 类 性 能 。 使 用 随机 森林 基 学 习 央 的 性 能 更 好 ， 这 点 与 鲍鱼 预测 年 龄 
问题 不 同 。 在 鲍鱼 预测 年 龄 问题 上 ， 采 用 随机 森林 基 学 习 器 并 没有 获得 显著 的 改善 。 


7.4.5 梯度 提升 法 分 类 器 的 性 能 

图 7-16 绘制 了 两 个 曲线 。 一 个 是 训练 集 的 偏差 (deviance)。 偏 差 与 估计 值 距 离 正确 值 
有 多 远 相 关 ， 但 又 与 误 分 类 误差 稍微 有 些 差别 。 把 偏差 绘制 出 来 是 因为 梯度 提升 法 就 是 
把 偏差 作为 优化 的 目标 。 在 图 中 可 以 看 到 训练 过 程 中 偏差 的 变化 。AUC (基于 测试 数据 ) 
也 在 图 中 绘 出 是 为 了 展示 随 着 决策 树 数目 的 增加 测试 数据 的 性 能 的 变化 (决策 树 数 
目的 增加 就 等 同 于 在 梯度 下 降 中 采取 了 更 多 的 步 又 ， 每 一 步 就 意味 着 又 训练 了 一 个 
决策 树 ) 。 
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7-15 ”随机 森林 模型 探测 未 爆炸 水 雷 . ROC 曲线 


























图 7-17 绘制 了 最 重要 的 前 30 个 属性 的 重要 性 排名 。 图 7-17 中 的 属性 重要 性 排名 与 
随机 森林 的 ( 见 图 7-14) 有 些 不 同 ， 但 是 也 有 共同 点 ， 如 属性 V10、V11、V20 和 V51 HE 
名 都 比较 靠 前 ， 尽 管 具体 的 顺序 可 能 不 同 。 























偏差 /AUC 
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图 7-16 梯度 提升 模型 探测 未 爆炸 水 雷 . AUC 58 
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图 7-17 梯度 提升 模型 探测 未 爆炸 水 雷 ， 各 
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使 用 随机 森林 基 学 习 器 的 梯度 提升 法 的 模型 训练 过 程 如 图 7-18，7-19 所 示 。 使 用 随 
机 森林 基 学 习 器 确实 获得 了 更 好 的 结果 ， 但 是 这 种 差异 还 不 足以 在 图 中 有 所 体现 。 


1.0 
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0.2 
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图 7-18 梯度 提升 法 探测 未 爆炸 水 雷 : ROC 曲线 


训练 集 偏差 
— 测试 集 AUC 


偏差 /AUC 
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7-19 ”使 用 随机 森林 基 学 习 器 的 梯度 提升 法 检测 水 雷 . AUC 与 集成 方法 规模 的 关系 
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图 7-20 使 用 随机 森林 基 学 习 器 的 梯度 提升 法 探测 水 雷 : 各 属性 重 








通过 比较 图 7-20 与 图 7-17 可 知 使 用 随机 森林 基 学 习 器 对 属性 的 重要 性 影响 不 大 。 





性 排名 








图 7-21 为 使 用 随机 森林 基 学 习 器 的 梯度 提升 法 检测 水 雷 的 ROC 曲线 。 
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图 7-21 使 用 随机 森林 基 学 习 器 的 梯度 提升 法 探测 水 雷 . ROC 
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此 节 介 绍 了 如 何 用 集成 方法 解决 二 分 类 问题 。 在 很 多 方面 ， 使 用 集成 方法 解决 二 分 类 
问题 与 回归 问题 基本 相同 ， 可 以 注意 到 初始 化 RandomForestRegressor 所 需 的 参数 与 初始 
化 RandomForestClassification 的 基本 一 样 。 基 于 第 6 章 的 介绍 ， 就 可 以 理解 这 种 一 致 背后 








的 原因 。 
集成 方法 用 于 分 类 问题 和 回归 问题 的 不 同 之 处 主要 在 于 对 误差 的 评价 方法 和 误差 特征 
的 刻画 不 同 。 


下 节 主 要 介绍 上 述 方法 如 何 解决 多 类 别 分 类 问题 。 


7.5 用 Python 集成 方法 解决 多 类 别 分 类 问题 

Python 实现 的 随机 森林 和 梯度 提升 可 以 构建 二 分 类 和 多 类 别 分 类 模型 。 这 两 个 模型 
之 间 有 天 然 的 差别 。 首 先是 标签 (y) 。 随 机 森林 和 梯度 提升 的 讨论 就 包含 对 标签 的 处 理 。 
对 于 一 个 有 nClass 个 不 同类 别 的 分 类 问题 ， 标 签 取 0 — nClass-1 的 整数 。 另 外 一 个 体现 
类 别 数量 的 是 不 同 预测 方法 的 输出 。 预 测 所 属 类 别 的 方法 输出 与 标签 相同 范围 的 整数 值 ， 
预测 所 属 类 别 概率 的 方法 输出 为 nClass 个 可 能 类 别 对 应 的 概率 。 

另外 一 个 需要 关注 差异 性 的 领域 就 是 对 性 能 的 评价 。 误 分 类 错误 仍然 是 有 意义 的 ， 在 
此 节 将 看 到 基于 误 分 类 错误 评价 测试 数据 性 能 的 代码 。 当 类 别 超过 两 个 时 ，AUC 的 使 用 
将 更 复杂 ， 不 同 误差 类 型 之 间 的 权衡 也 将 更 有 挑战 性 。 


7.5.1 用 随机 森林 对 玻璃 进行 分 类 
代码 清单 7-8 遵循 的 流程 与 用 于 探测 水 雷 的 代码 基本 一 致 。 






























































代码 清单 7-8 用 随机 森林 对 玻璃 进行 分 类 -glassRF.py 


, author = 'mike bowles' 


import urllib2 

from math import sqrt, fabs, exp 

import matplotlib.pyplot as plot 

from sklearn.linear model import enet path 

from sklearn.metrics import accuracy score, confusion matrix, roc curve 
from sklearn.cross validation import train test split 

from sklearn import ensemble 


import numpy 


target url = ("https://archive.ics.uci.edu/ml/machine-learning-" 


"databases/glass/glass.data") 
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data = urllib2.urlopen(target_url) 


#arrange data into list for labels and list of lists for attributes 
xList = [] 
for line in data: 

#split on comma 

row = line.strip().split(",") 


xList.append (row) 


glassNames = numpy.array(['RI', 'Na', 'Mg', 'Al', 'Si', 'K', 'Ca', 
'Ba', "Rel, 'Type']) 


#Separate attributes and labels 
xNum = [] 


labels = [] 


for row in xList: 
labels.append(row.pop()) 
l = len(row) 
#eliminate ID 
attrRow = [float(row[i]) for i in range(1, 1)] 


xNum.append (attrRow) 
#number of rows and columns in x matrix 
nrows = len (xNum) 


ncols = len(xNum[1]) 


Labels are integers from 1 to 7 with no examples of 4. 





gb requires consecutive integers starting at O0 





newLabels = [] 
labelSet = set(labels) 
labelList = list(labelSet) 











labelList.sort() 


nlabels = len(labelList) 








for l in labels: 


index = labelList.index (1) 





newLabels.append (index) 


#Class populations: 
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old label new label num of examples 
1 0 70 

2 1 76 

3 2 17 

5 3 二 3 

6 4 9 

7 5 29 


Drawing 30% test sample may not preserve population proportions 


stratified sampling by labels. 











Temp = [xNum[i] for i in range(nrows) if newLabels[i] == 0] 
yTemp = [newLabels[i] for i in range(nrows) if newLabels[i] == 0] 
Train, xTest, yTrain, yTest = train test split(xTemp, yTemp, 


test size-0.30, random state-531) 


for iLabel in range(1, len(labelList)): 


#segregate x and y according to labels 














xTemp = [xNum[i] for i in range(nrows) if newLabels[i] == iLabel] 
yTemp = [newLabels[i] for i in range(nrows) if \ 
newLabels[i] == iLabel] 





#form train and test sets on segregated subset of examples 





xTrainTemp, xTestTemp, yTrainTemp, yTestTemp = train test split( 
xTemp, yTemp, test size-0.30, random state-531) 

















#accumulate 

xTrain = numpy.append(xTrain, xTrainTemp, axis=0) 
xTest = numpy.append(xTest, xTestTemp, axis=0) 
yTrain = numpy.append(yTrain, yTrainTemp, axis=0) 
yTest = numpy.append(yTest, yTestTemp, axis=0) 

















missCLassError = [] 


nTreeList = range(50, 2000, 50) 











for iTrees in nTreeList: 


depth = None 

maxFeat = 4 #try tweaking 

glassRFModel = ensemble.RandomForestClassifier(n estimators-iTrees, 
max depth-depth, max features-maxFeat, 


oob score-False, random state-531) 
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glassRFModel.fit (xTrain, yTrain) 


#Accumulate auc on test set 
prediction = glassRFModel.predict (xTest) 


correct = accuracy score(yTest, prediction) 





missCLassError.append(1.0 - correct) 





print ("Missclassification Error" ) 





print (missCLassError[-1]) 


#generate confusion matrix 


pList = prediction.tolist() 

confusionMat - confusion matrix(yTest, pList) 
prunt('") 

print("Confusion Matrix") 


print (confusionMat) 





#plot training and test errors vs number of trees in ensembl 








plot.plot(nTreeList, missCLassError) 





plot.xlabel('Number of Trees in Ensemble") 





plot.ylabel('Missclassification Error Rate!) 
#plot.ylim([0.0, 1.1*max(mseOob)]) 
plot.show() 


# Plot feature importance 


featureImportance = glassRFModel.feature importances _ 


f normalize by max importance 


featureImportance = featureImportance / featureImportance.max() 


#plot variable importance 

idxSorted = numpy.argsort(featureImportance) 

barPos = numpy.arange(idxSorted.shape[0]) + .5 
plot.barh(barPos, featureImportance[idxSorted], align='center') 
plot.yticks(barPos, glassNames[idxSorted]) 
plot.xlabel('Variable Importance') 

plot.show() 


问题 
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Printed Output: 





Missclassification Error 


0.227272727273 


Confusion Matrix 








[[17 1 2 0 0 1 
218 1 2 0 0 
3 0 3 0 0 0 
0 0 0 4 0 0 
o 1 0 0 2 0 
0 2 0 0 0 7]] 








7.5.2 ”处 理 类 不 均衡 问题 

此 段 代码 遵循 的 流程 与 用 于 探测 水 雷 的 代码 基本 一 致 ， 主 要 有 以 下 的 不 同 。 从 代 
码 中 可 以 看 到 ， 将 原始 数据 中 的 一 系列 不 同 玻璃 类 型 转换 为 相应 的 整数 ， 主 要 是 为 了 满 
足 随 机 森林 的 输入 要 求 。 代 码 还 显示 了 不 同类 别 玻璃 的 样本 数量 。 部 分 类 别 的 玻璃 有 更 
多 的 样本 (如 70 个 )， 但 是 有 些 类 别 的 玻璃 则 没有 那么 多 样本 ， 如 有 一 类 玻璃 只 有 9 个 
样本 。 

类 别 之 间 不 均衡 有 时 会 导致 一 些 问题 。 如 果 随 机 取样 没有 充分 考虑 样本 的 代表 性 ， 会 
导致 抽样 后 的 各 类 别 样本 所 占 比例 与 原始 数据 中 的 比例 有 很 大 的 区 别 。 为 了 避免 这 个 问 
题 ， 代 码 中 采用 分 层 抽 样 技术 (Stratifid Sampling)。 这 个 例子 中 ， 首 先 根据 标签 对 数据 进 
行 分 组 (分 层 )， 然 后 对 每 组 数据 进行 取样 获得 每 个 类 别 的 训练 、 测 试 数据 集 ， 最 后 将 这 
些 针 对 每 个 类 别 的 训练 数据 集 组 合 在 一 起 形成 训练 数据 集 ， 这 个 训练 数据 集 的 各 类 别 样本 
所 占 的 比例 就 与 初始 数据 的 比例 一 样 了 。 

代码 生成 随机 森林 模型 , 然后 绘制 训练 过 程 、 属 性 的 重要 性 排名 。 打 印 输出 混淆 矩阵 ， 
此 矩阵 显示 了 对 于 每 一 个 类 别 ， 其 样本 分 别 有 多 少 被 预测 成 了 其 他 类 别 。 如 果 分 类 器 是 完 
美的 ， 则 在 矩阵 里 不 应 该 有 偏离 对 角 线 的 元 素 。 

图 7-22 展示 了 随 着 决策 树 数目 的 增加 ， 随 机 森林 方法 性 能 是 如 何 改善 的 。 随 着 决策 
树 的 增加 ， 曲 线 通常 是 下 降 的 。 随 着 决策 树 的 增加 ， 改 善 的 比率 也 在 减少 ， 当 曲线 达到 最 
右边 时 ， 下 降 得 已 经 相当 缓慢 了 。 

图 7-23 所 示 的 条 状 图 展示 了 随机 森林 所 用 属性 的 相对 重要 性 排名 。 条 状 图 说 明 有 些 
属性 对 性 能 的 贡献 是 相当 的 。 这 有 些 不 同 寻 常 。 在 很 多 情况 下 ， 属 性 的 重要 性 经 过 前 几 个 
后 会 迅速 下 降 。 但 在 这 个 问题 上 ， 有 几 个 属性 具有 相同 的 重要 性 。 
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图 7-22 随机 森林 的 整体 性 能 
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E] 7-23 ”随机 森林 所 用 属性 的 相对 重要 性 排名 
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7.5.3 ”用 梯度 提升 法 对 玻璃 进行 分 类 
代码 清单 7-9 除了 一 些小 的 差异 外 ， 其 基本 步 又 与 上 节 的 使 用 随机 森林 对 玻璃 进行 分 
类 的 过 程 基本 一 致 。 








代码 清单 7-9 ”使 用 梯度 提升 法 对 玻璃 进行 分 类 -glassGbm.py 
, author  - 'mike bowles' 


import urllib2 

from math import sqrt, fabs, exp 

import matplotlib.pyplot as plot 

from sklearn.linear model import enet path 

from sklearn.metrics import roc auc score, roc curve, confusion matrix 
from sklearn.cross validation import train test split 

from sklearn import ensemble 


import numpy 


target url - ("https://archive.ics.uci.edu/ml/machine-learning-" 
"databases/glass/glass.data") 
data - urllib2.urlopen(target url) 


farrange data into list for labels and list of lists for attributes 
xList = [] 
for line in data: 

fsplit on comma 

row = line.strip().split(",") 


xList.append(row) 


glassNames = numpy.array(['RI', 'Na', 'Mg', 'AI', 'Si', 'K', 'Ca', 
'Ba', Fet; 'Type']) 


#Separate attributes and labels 
xNum = [] 
labels = [] 


for row in xList: 
labels.append(row.pop()) 
l = len(row) 
feliminate ID 


attrRow = [float(row[i]) for i in range(1, 1)] 
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xNum.append (attrRow) 
#number of rows and columns in x matrix 
nrows = len(xNum) 


ncols = len(xNum[1]) 


fLabels are integers from 1 to 7 with no examples of 4. 








#gb requires consecutive integers starting at 0 





newLabels - [] 
labelSet = set(labels) 
labelList = list(labelSet) 
labelList.sort() 
nlabels = len(labelList) 
for l in labels: 

index = labelList.index (1) 














newLabels.append (index) 


Class populations: 


old label new label num of examples 
1 0 70 
2 1 76 
3 2 17 
5 3 3 
6 4 9 
7 5 29 


Drawing 30$ test sample may not preserve population proportions 








stratified sampling by labels. 














xTemp = [xNum[i] for i in range(nrows) if newLabels[i] -- 0] 
Temp = [newLabels[i] for i in range(nrows) if newLabels[i] == 0] 
xTrain, xTest, yTrain, yTest = train test split(xTemp, yTemp, 


test size-0.30, random state-531) 











for iLabel in range(1, len(labelList)): 
#segregate x and y according to labels 
xTemp = [xNum[i] for i in range(nrows) if newLabels[i] == iLabel] 
yTemp = [newLabels[i] for i in range(nrows) if ^ 
newLabels[i] == iLabel] 





#form train and test sets on segregated subset of examples 








xTrainTemp, xTestTemp, yTrainTemp, yTestTemp = train test split( 








xTemp, yTemp, test size-0.30, random state-531) 
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#accumulate 


xTrain = numpy.append(xTrain, xTrainTemp, axis=0) 





Test = numpy.append(xTest, xTestTemp, axis=0) 


" m 











'rain, yTrainTemp, axis=0) 

















x 
yTrain = numpy.append(y 
yTest = numpy.append(yTest, yTestTemp, axis-0) 


#instantiate model 





nEst = 500 

depth = 3 
learnRate = 0.003 
maxFeatures = 3 











subSamp = 0.5 
glassGBMModel = ensemble.GradientBoostingClassifier(n estimators-nEst, 
max depth=depth, learning rate=learnRate, 
max features-maxFeatures,subsample-subSamp) 
ftrain 


glassGBMModel.fit(xTrain, yTrain) 


# compute auc on test set as function of ensemble size 





missClassError - [] 
missClassBest - 1.0 
predictions = glassGBMModel.staged decision function (xTest) 


for p in predictions: 
missClass - 0 
for i in range(len(p)): 
listP = p[i].tolist() 
if listP.index(max(listP)) != yTest[i]: 
missClass += 1 


missClass - float (missClass)/len(p) 


missClassError.append (missClass) 


#capture best predictions 
if missClass « missClassBest: 
missClassBest = missClass 


pBest - p 








idxBest = missClassError.index(min(missClassError)) 


#print best values 





print("Best Missclassification Error" ) 
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print (missClassBest) 





print ("Number of Trees for Best Missclassification Error") 


print (idxBest) 





#plot training deviance and test auc's vs number of trees in ensembl 





m 


missClassError = [100*mce for mce in missClassError] 








plot.figure () 
plot.plot(range(1, nEst + 1), glassGBMModel.train score , 





label='Training Set Deviance', linestyle=":") 











plot.plot(range(1, nEst + 1), missClassError, label-'Test Set Error!) 





plot.legend(loc='upper right') 


plot.xlabel('Number of Trees in Ensemble") 





plot.ylabel('Deviance / Classification Error') 








plot.show() 


# Plot feature importance 


featureImportance = glassGBMModel.feature importances | 


f normalize by max importance 


featureImportance = featureImportance / featureImportance.max() 


#plot variable importance 

idxSorted = numpy.argsort(featureImportance) 

barPos = numpy.arange(idxSorted.shape[0]) + .5 
plot.barh(barPos, featureImportance[idxSorted], align='center') 
plot.yticks(barPos, glassNames [idxSorted] ) 
plot.xlabel('Variable Importance') 

plot.show() 


fgenerate confusion matrix for best prediction. 
pBestList = pBest.tolist() 


bestPrediction = [r.index(max(r)) for r in pBestList] 
confusionMat - confusion matrix(yTest, bestPrediction) 
pruint('") 


print("Confusion Matrix") 


print (confusionMat) 


Printed Output: 





depth = 3 


# 
# 
# nEst = 500 
# 
# learnRate = 0.003 
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maxFeatures = Non 


subSamp = 0.5 


Best Missclassification 
0.242424242424 

Number of Trees for Bes 
113 


Confusion Matrix 


[[19 1 0 0 0 1 
319 0 1 0 Q 
4 1 0 0 1 0 
0.3 0 1 0 0 
0 0 0 0 3 0 
0 1 0 1 0 7]] 








For Gradient Boosting u 
nEst = 500 





depth = 3 
learnRate = 0.003 
maxFeatures = 3 


subSamp = 0.5 


Best Missclassification 
0.227272727273 

Number of Trees for Bes 
267 


Confusion Matrix 


[[20 1 0 0 0 0 
3-20 0 0 0 0 
3 3 0 0 0 0 
0 4 0 0 0 0 
0 0 0 0 3 0 
0.2 0 0 0 7]] 








Error 








t Missclassification Error 





sing Random Forest base learners 


Error 





t Missclassification Error 
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如 前 所 述 ， 在 GradientBoostingClassifier 类 中 可 以 使 用 迭代 版 本 的 梯度 提升 法 ， 这 样 
在 梯度 提升 的 训练 过 程 中 每 一 步 都 可 以 生成 预测 结果 。 


7.5.4 评估 在 梯度 提升 法 中 使 用 随机 森林 基 学 习 器 的 好 处 

在 代码 的 最 后 可 以 看 到 max_features 分 别 设 为 None 和 20 时 ,梯度 提升 法 的 预测 结果 。 
第 一 个 取 值 是 指 训练 普通 的 决策 树 ， 就 像 最 初 提出 梯度 提升 法 算法 的 论文 建议 的 那样 。 第 
二 个 取 值 是 指 将 随机 森林 作为 基 学 习 器 ， 在 决策 树 的 每 个 节点 进行 数据 分 割 时 不 考虑 所 
有 的 属性 ， 只 随机 考虑 max features 个 属性 。 这 实际 上 是 梯度 提升 和 随机 森林 两 种 方法 的 
混合 。 

训练 数据 集 的 偏差 和 测试 数据 集 上 的 误 分 类 误差 如 图 7-24 所 示 。 偏 差 展示 了 训练 的 
过 程 。 测 试 数据 集 的 误 分 类 误差 用 来 确定 模型 是 否 过 拟 合 。 算 法 没有 过 拟 合 ， 但 是 在 决策 
树 数目 达到 200 左右 后 ， 性 能 也 不 再 提升 ， 因 此 可 以 终止 测试 。 
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图 7-24 用 梯度 提升 法 分 类 玻璃 的 性 能 

















图 7-25 为 梯度 提升 法 中 各 属性 的 重要 性 排名 。 此 图 不 太 寻 常 ， 有 相当 多 属性 的 重要 
性 差不多 。 通 常 是 有 几 个 属性 非常 重要 ， 然 后 后 续 属 性 的 重要 性 迅速 下 降 。 

当 max features 取 值 为 20 时 , 其 训练 数据 偏差 和 测试 数据 误 分 类 误差 如 图 7-26 所 示 ， 
这 时 使 用 的 是 随机 森林 基 学 习 器 。 这 导致 误 分 类 率 改 善 了 大 概 10%。 但 在 图 7-26 中 察觉 
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不 到 ， 这 种 轻微 的 改善 并 不 能 改变 图 7-26 中 曲线 的 基本 特征 。 



































图 7-25 用 梯度 提升 对 玻璃 进行 分 类 : 各 属性 重要 性 排名 
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图 7-26 ”基于 随机 森林 基 学 习 器 的 梯度 提升 法 对 玻璃 进行 分 类 : 性 能 与 决策 树 数目 的 关系 
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基于 随机 森林 基 学 习 器 的 梯度 提升 法 所 用 属性 的 重要 性 排名 如 图 7-27 所 示 。 此 图 各 
属性 的 排名 与 图 7-25 中 的 有 些 不 同 。 有 些 属性 都 出 现在 两 个 排名 的 前 五 ， 但 是 有 些 属性 
在 一 个 排名 中 出 现在 前 五 ， 但 在 另 一 个 排名 中 却 出 现在 最 后 。 这 两 个 图 都 显示 了 某 些 属性 
具有 类 似 的 重要 ， 这 可 能 是 这 两 个 排名 有 些 不 稳定 的 原因 。 
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图 7-27 基于 随机 森林 基 学 习 器 的 梯度 提升 法 对 玻璃 进行 分 类 : 各 属 ' 

















7.6 算法 比较 


本 章 出 现 的 算法 在 时 间 和 性 能 上 的 对 比如 表 7-1 所 示 。 时 间 是 完成 一 轮 完 整训 练 
所 需 的 时 间 , 训练 随机 森林 的 部 分 代码 训练 了 一 系列 不 同 规模 的 模型 。 在 这 种 情况 下 ， 
最 长 训练 时 间作 为 所 需 时 间 。 “算法 ” 列 的 其 他 用 来 展示 训练 行为 随 决策 树 数目 的 变 
化 情况 。 相 似 地 ， 对 于 惩罚 线性 回归 算法 ， 多 数 情况 使 用 10 折 交 又 验证 ， 但 也 有 的 
只 使 用 了 一 个 测试 数据 集 。 单 个 测试 数据 集 只 需要 一 轮训 练 时 间 ， 然 而 对 于 10 折 交 
又 验证 需要 进行 10 轮训 练 。 对 于 引入 10 折 交 又 验 证 的 算法 ， 表 7-1 中 只 显示 了 10 
轮 时 间 的 十 分 之 一 。 
除了 玻璃 分 类 数据 集 〈 多 类 别 分 类 问题 )， 惩 罚 线性 回归 的 训练 时 间 要 比 梯度 提升 和 
随机 森林 快 一 个 数量 级 。 通 常 随 机 森林 和 梯度 提升 的 性 能 要 优 于 惩罚 线性 回归 。 惩 罚 线性 
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回归 只 在 某 些 数据 集 上 性 能 接近 随机 森林 和 梯度 提升 。 若 要 在 红酒 数据 集 上 达到 接近 的 性 


能 ， 需 要 进行 基 





扩展 (basis expansion ) 。 


性 能 的 进一步 提升 。 

















基 扩 展 如 果 应 用 到 其 他 数据 集 上 ， 也 可 能 会 带 来 






























































































































































表 7-1 性 能 与 训练 时 间 的 对 比 
数据 集 算法 训练 时 间 性 能 性 能 评价 标准 

玻璃 随机 森林 2.354401 0.227272727273 分 类 错误 
2000 决策 树 

玻璃 梯度 提升 法 3.879308 0.227272727273 分 类 错误 
500 决策 权 

玻璃 # (lasso) 回归 12.296948 0.373831775701 分 类 错误 

岩石 与 水 雷 随机 森林 2.760755 0.950304259635 曲线 下 面积 
2000 决策 树 

岩石 与 水 雷 梯度 提升 法 4.201122 0.956389452333 曲线 下 面积 
2000 决策 树 

岩石 与 水 雷 ElasticNet 回归 0.519870* 0.868672796508 曲线 下 面积 

鲍鱼 随机 森林 8.060850 4.30971555911 陶 方 误差 
500 决策 树 

鲍鱼 梯度 提升 法 22.726849 4.22969363284 陶 方 误差 
2000 决策 树 

红酒 随机 森林 2.665874 0.314125711509 TT ABE 
500 决策 权 

红酒 梯度 提升 法 13.081342 0.313361215728 的 方 误差 
2000 决策 树 

红酒 套 索 扩展 回归 0.646788* 0.434528740430 网 方 误差 

* 标 星 的 时 间 是 单独 一 次 交叉 验证 的 时 间 。 这 些 方法 根据 n 折 交 又 验证 技术 会 重复 训练 几 次 。 但 是 其 他 方法 只 在 一 个 
测试 数据 集 上 进行 测试 。 所 以 采用 单独 一 次 交叉 验证 的 时 间 与 其 他 算法 对 比 。 








随机 森林 和 梯度 提升 法 两 者 的 
法 需要 训练 更 多 的 决策 树 








DESEU 
是 训练 还 是 






























































乡下 就 可 以 砍 掉 梯度 提升 一 





两 者 的 训练 时 间 保 持 一 致 。 上 述 情况 对 红酒 数据 集 也 同样 成 立 。 


生 能 很 接近 。 只 不 过 某 些 时 候 ， 一 个 算法 要 比 另 一 个 算 
才能 达到 相似 的 性 能 。 随 机 森林 和 梯度 提升 法 的 训练 时 间 大 致 也 
一 样 。 在 两 者 训练 时 间 不 一 致 时 ,一 个 算法 的 训练 时 间 可 能 远 远 超出 了 它 必需 的 时 间 。 例 如， 
鱼 数据 集 ， 梯 度 提升 法 的 测试 数据 误差 在 1 000 步 (决策 树 ) 时 就 已 经 很 平坦 了 ,但 


一 直 持续 到 2 000。 如 果 进 行 修 半 的 训练 时 间 ， 就 会 使 
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小 结 








本 章 介绍 了 Python 实现 的 集成 方法 工具 包 。 实 例 代码 展示 了 使 用 这 些 方 法 针对 不 同 
类 型 的 问题 构建 模型 。 本 章 涵盖 了 回归 问题 、 二 分 类 问题 、 多 类 别 分 类 问题 ， 并 讨论 了 一 
些 变化 ， 如 何 类 别 属性 的 编码 、 分 层 取 样 等 。 这 些 例 子 涵盖 了 可 能 在 实践 中 过 到 的 不 同 问 
RA 

这 里 的 例子 也 展示 了 集成 方法 的 重要 特征 : 为 什么 对 于 数据 科学 集成 方法 是 首选 的 原 
因 。 集 成 方法 相对 易于 使 用 。 它 们 不 需要 调 很 多 参数 。 它 们 可 以 给 出 属性 的 重要 性 信息 ， 
有 利于 模型 开发 早期 阶段 的 对 比 和 分 析 ， 集 成 方法 通常 也 可 以 获得 最 佳 的 性 能 。 

本 章 介绍 了 相关 Python 工具 包 的 使 用 。 第 6 章 的 背景 知识 帮助 理解 这 些 参数 的 设置 
及 其 调整 。 通 过 观察 实例 代码 中 参数 的 设置 ， 可 以 帮助 尝试 使 用 这 些 软件 包 。 

在 本 章 的 最 后 对 比分 析 各 种 算法 。 集 成 方法 通常 可 以 获得 最 佳 的 性 能 。 惩 罚 回归 方法 
通常 比 集成 方法 快 ， 在 某 些 情况 下 ， 可 以 获得 接近 的 性 能 。 


参考 文献 


1. sklearn documentation for RandomForestRegressor, http://scikit-learn.org/stable/ 































































































modules/generated/sklearn.ensemble.RandomForestRegressor.html 

2. Leo Breiman. (2001). “Random Forests." Machine Learning , 45 (1): 5-32.doi:10.1023/ 
A:10109334043243. J. H. Friedman. “Greedy Function Approximation: A Gradient 
BoostingMachine," https://statweb.stanford.edu/~jhf/ftp/trebst.pdf 

3. J. H. Friedman. “Greedy Function Approximation: A Gradient Boosting Machine,” 
https://statweb.stanford.edu/~jhf/ftp/trebst.pdf 

4. sklearn documentation for RandomForestRegressor, http://scikit-learn.org/stable/ 
modules/generated/sklearn.ensemble. 

RandomForestRegressor.html 

5. L. Breiman, “Bagging predictors,” http://statistics.berkeley.edu/sites/default/files/tech- 
reports/421.pdf 

6. Tin Ho. (1998). “The Random Subspace Method for Constructing DecisionForests." 
IEEE Transactions on Pattern Analysis and Machine Intelligence ,20 (8): 832-844. 
doi:10.1109/34.709601 

7. J. H. Friedman. “Greedy Function Approximation: A Gradient BoostingMachine," 
https://statweb.stanford.edu/~jhf/ftp/trebst.pdf 

8. J. H. Friedman. “Stochastic Gradient Boosting,” https://statweb.stanford.edu/~jhf/ftp/ 


316 | 第 7 章 ”用 Python 构建 集成 模型 


stobst.pdf 

9. sklearn documentation for GradientBoostingRegressor, http://scikit-learn.org/stable/ 
modules/generated/sklearn.ensemble.GradientBoostingRegressor.html 

10. J. H. Friedman. “Greedy Function Approximation: A Gradient BoostingMachine,” 
https://statweb.stanford.edu/~jhf/ftp/trebst.pdf 

11. J. H. Friedman. “Stochastic Gradient Boosting,” https://statweb.stanford.edu/~jhf/ftp/ 
stobst.pdf 

12. J. H. Friedman. “Stochastic Gradient Boosting,” https://statweb.stanford.edu/~jhf/ftp/ 
stobst.pdf 

13. sklearn documentation for RandomForestClassifier, http://scikit-learn.org/stable/ 
modules/generated/sklearn.ensemble.RandomForestClassifier.html 

14. sklearn documentation for GradientBoostingClassifier, http://scikit-learn.org/stable/ 


modules/generated/sklearn.ensemble.GradientBoostingClassifier.html 


异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 
提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 








社区 里 都 有 什么 ? 


购买 图 书 
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A Rub m ou hk o 


m www.epubit.com.cn 








我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 故 





布 新 书 书 讯 。 

















下 载 资 源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 








与 作 译 者 互动 











很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 


特别 优惠 


购买 本 书 的 读者 专 享 异 步 社 区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 








纸 电 图 书 组 合 购买 




















M 











社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 





社区 里 还 可 以 做 什么 ? 


fee 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 








软 技能 : 代码 之 外 的 生存 指南 
[354986 Z. #18 ( John Z. Sonmez ) (FS) 王 小 刚 GS) ish EERS) 
e 6 9. OK 






这 是 一 本 真正 从 “人 ” ( 而 非 技术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 自 身 发 展 的 书 。 书 中 论述 的 
包括 a 人 ”的 因素 ， 全 面 讲解 软件 行业 从 业 人 员 所 


程 到 精 耕 细 人 份 杀手 级 简历 ， 从 创 
就 到 与 如 何 与 “拖延 症 ” 做 斗争 ,甚至 
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电子 版 + 纸 质 版 Y 5900 














者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 
EE 











社区 提供 基于 Markdown 的 写作 环境 ， 





Ie 


欢 写作 的 您 可 以 在 此 一 试 身 手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 




















会 议 活动 早 知道 

















您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 











异步 社区 | BRE 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 





扫描 任意 二 维 码 都 能 找到 我 们 : 

















微 信 订阅 号 |. BAM “QQ 群 : 368449889 


BAM: e 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 





投稿 & 咨询 : contact@epubit.com.cn 





Python 机 器 学 习 
预测 分 析 核 心算 法 
用 Python 分 析 数 据 、 预 测 结果 的 简单 高 效 的 方式 


机 器 学 习 关 注 于 预测 ， 其 核心 是 一 种 基于 数学 和 算法 的 技术 ， 要 掌握 该 技术 ， 需 要 对 数学 及 统计 概念 有 深入 理解 ， 能 够 熟 
练 使 用 R 语言 或 者 其 他 编程 语言 。 











本 书 通过 集中 介绍 两 类 可 以 进行 有 效 预测 的 机 器 学 习 算 法 ， 展 示 了 如 何 使 用 Python 编程 语言 完成 机 器 学 习 任 务 ， 从 而 降 
低 机 器 学 习 难 度 ， 使 机 器 学 习 能 够 被 更 广泛 的 人 群 掌握 。 





作者 利用 多 年 的 机 器 学 习 经 验 带 领 读者 设计 、 构 建 并 实现 自己 的 机 器 学 习 方 案 。 本 书 尽 可 能 地 用 简单 的 术语 来 介绍 算法 ， 
避免 复杂 的 数学 推导 ， 同 时 提供 了 示例 代码 帮助 读者 迅速 上 手 。 读 者 会 很 快 深入 了 解 模型 构建 背后 的 原理 ， 不 论 简单 问题 还 是 
复杂 问题 , 读者 都 可 以 学 会 如 何 找到 问题 的 最 佳 解决 算法 。 书 中 详细 的 示例 , 给 出 了 具体 的 可 修改 的 代码 , 展示 了 机 器 学 习 机 理 ， 
涵盖 了 线性 回归 和 集成 方法 ， 帮 助理 解 使 用 机 器 学 习 方 法 的 基本 流程 。 

















本 书 为 不 具备 数学 或 统计 背景 的 读者 量 身 打造 ， 详 细 介 绍 了 如 何 : 











e 针对 任务 选择 合适 算法 ; * 对 不 同 目的 应 用 训练 好 的 模型 ; 
e 学 习 数 据 处 理 机 制 ， 准 备 数 据 ; e 评估 模型 性 能 以 保证 应 用 效果 ; 


e 掌握 Python 机 器 学 习 核 心算 法 包 ; e 使 用 示例 代码 设计 和 构建 你 自己 的 模型 ; 
e 构建 实用 的 多 功能 预测 模型 。 








在 硅谷 黑客 道场 教授 机 器 学 习 ， 提 供 机 器 学 习 项 目 咨 询 ， 同 时 参与 了 多 家 创业 公司 ， 涉 及 的 领域 包括 生物 信 
息 学 、 金 融 高 频 交 易 等 。 他 在 麻 省 理工 学 院 获得 助理 教授 教 职 后 ， 创 建 并 运营 了 两 家 硅谷 创业 公司 ， 这 两 家 公司 都 已 成 功 上 市 。 
他 在 黑客 道场 的 课程 往往 听 者 云集 并 且 好 评 颇 多 。 
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